ArtiWaifu Diffusion 2.0
我们发布了 ArtiWaifu Diffusion 2.0 模型,用于生成美观且还原的动漫风格插画。
awa diffusion 迭代自 ArtiWaifu Diffusion 1.0 模型,掌握 0000+ 种艺术风格和 6000+ 个动漫角色等大量 ACG 概念,通过触发词生成。
作为二次元特化的图像生成模型,它在生成高质量的二次元图像时表现出色,特别是在生成具有高辨识度风格和角色的同时,维持图像一贯高质量的美学表达。
模型细节
awa diffusion 模型微调自 ArtiWaifu Diffusion 1.0,精选了 150 万的高质量动漫图像作为数据集,知识涵盖了截止至 2024 年 4 月 15 日的各种冷热门的二次元概念。
awa diffusion 采用了我们最先进的训练策略,允许用户轻松地诱导模型生成特定角色或风格的图像,同时保持图像的高质量和美学表达。
模型信息
- 模型开发: Euge ( https://civitai.com/user/Euge_ )
- 算力赞助:Neta.art ( https://nieta.art/ )
- 模型类型:生成式文生图扩散模型
- 微调自基础模型:ArtiWaifu Diffusion 1.0 ( https://huggingface.co/Eugeoter/artiwaifu-diffusion-1.0 )
- 模型证书: Fair AI Public License 1.0-SD ( https://freedevproject.org/faipl-1.0-sd/ )
使用指南
该指南将 (i) 介绍模型的推荐使用方法和提示词编写策略,旨在提供生成方面的建议,并 (ii) 作为模型使用的参考文档,介绍触发词、质量标签、分级标签、风格标签和角色标签的编写模式和策略。
基本用法
- CFG scale: 5-11, 推荐值为 7.5
- Resolution: 面积(= 宽 x 高)围绕 1024x1024。不低于 256x256,且长和宽均为 32 倍数的分辨率。
- Sampling method: Euler A (20+ steps) 或 DPM++ 2M Karras (~35 steps)
由于特殊的训练方式,awa 的最佳推理步数高于常规值。随着推理步数的进一步提高,生成图像的质量能够继续提升……
❓ Question: 为什么不使用标准的 SDXL 分辨率?
💡 Answer: 因为训练所用的分桶算法并没有固定一套分桶。虽然这不符合位置编码,但我们并未观察到不良影响。
提示词编排
所有文生图扩散模型有一个臭名昭著的特性,那就是它对提示词的敏感度极高。awa diffusion 也不例外。即便是单词拼写错误,甚至是将提示词中的空格替换为下划线,都会导致生成结果受到影响。
awa diffusion 鼓励用户使用以 逗号+空格 分隔的 标签(tag) 形式来编写提示词。虽然模型也支持自然语言的图像描述作为提示词,或是二者穿插,但效果不如标签形式稳定易用。
在描述某种特定的 ACG 概念,例如角色、风格、场景等时,我们建议用户在撰写标签时从Danbooru 标签库中选择标签,并将 danbooru 标签中的下划线替换为空格,以确保模型能够准确理解您的需求。例如, bishop_(chess)
应该写成 bishop (chess)
,在 AUTOMATIC1111 WebUI 等通过圆括号加权提示词的推理工具中,需要对标签内的所有括号转义,即为 bishop \(chess\)
。
标签排序
包括 awa diffusion 在内的大多数扩散模型都更擅长理解在逻辑上有序的标签。虽然标签排序不是必须的,但是可以帮助模型更好地理解您的需求。一般来说,顺序越靠前的文本对生成的影响最大。
下面是一个标签排序的例子。该示例组织了标签顺序,前置了艺术风格标签和角色标签,因为风格和主体是画面的核心。随后,我们按从主到次的顺序添加其他标签。最后,后置美学标签和质量标签,进一步强调画面的美感。
art style (by xxx) -> character (1 frieren (sousou no frieren)) -> race (elf) -> composition (cowboy shot) -> painting style (impasto) -> theme (fantasy theme) -> main environment (in the forest, at day) -> background (gradient background) -> action (sitting on ground) -> expression (expressionless) -> main characteristics (white hair) -> other characteristics (twintails, green eyes, parted lip) -> clothing (wearing a white dress) -> clothing accessories (frills) -> other items (holding a magic wand) -> secondary environment (grass, sunshine) -> aesthetics (beautiful color, detailed) -> quality (best quality) -> secondary description (birds, cloud, butterfly)
标签顺序不是一成不变的。在实际撰写提示词时,灵活应变能够取得更好的结果。例如,当一种概念(例如风格)的效果过于强烈,以至于影响画面美观时,您可以后置它以减弱其影响。
负面提示词
负面提示词对于 awa diffusion 来说不是必须的,而且也不是越多越好,而是应做到 尽量精简且易于被模型识别。过多的负面提示词可能会导致生成效果变差。
以下是推荐的负面提示词的使用场景:
水印类: signature, logo, artist name;
质量类: worst quality, lowres, ugly, abstract;
风格类: real life, 3d, celluloid, sketch, draft;
人体结构类: deformed hand, fused fingers, extra limbs, extra arms, missing arm, extra legs, missing leg, extra digits, fewer digits。
触发词
在提示词中加入触发词以告知模型您所要生成概念。触发词可以是角色名、艺术风格、场景、动作、质量等等。
触发词使用注意事项
- 注意拼写:模型对触发词的拼写十分敏感,即便一个字母的差异也可能会导致触发失败或出现意料之外的结果;
- 注意括号:注意在使用依靠圆括号加权提示词的推理工具,如 AUTOMATIC1111 WebUI 时,要在触发词中对括号转义,例如 1lucy(cyberpunk) -> 1lucy \(cyberpunk\);
- 触发词预览:通过在 Danbooru 上搜索触发词,可以查看与触发词相关的图像,以了解触发词的效果。
风格标签
风格标签描述了生成图像的风格特征,风格覆盖范围为所生成图像的材质和布局。
风格标签分为两种, 绘画风格标签 和 艺术风格标签 。 绘画风格标签 描述了生成图像的绘制技法或媒介,例如油画、水彩、平涂和厚涂等。 艺术风格标签 则代表图像背后的艺术家风格。
awa diffusion 所支持的 绘画风格标签 有:
Danbooru 标签中拥有的绘画风格标签,如 oil painting, watercolor, flat color 等;
AID XL 0.8 所支持的所有绘画风格标签,如 flat-pasto 等;
Neta Art XL 1.0 所支持的所有风格标签,如 gufeng等;
参阅 绘画风格标签列表 以获取完整的绘画风格标签。
awa diffusion 所支持的 艺术风格标签 有:
Danbooru 标签中拥有的艺术风格标签,如 by yoneyama mai, by wlop 等;
AID XL 0.8 所支持的所有艺术风格标签,如 by antifreeze3, by 7thknights 等;
实验性地加入超棒的 AI 画风,包括:by shiroski, by trickortreat, by nyalia, by pasota, by xerganea, 和 by yandantui.
标签库中的标签计数(count)越高,说明该艺术风格训练越充分,还原度也越高。通常,计数高于 50 的艺术风格标签生成效果较好。
参阅 艺术风格标签列表 以获取完整的艺术风格标签。
风格标签使用注意事项
- 强弱调节:可通过调整风格标签在提示词中的顺序或加权来调整风格强度,前置风格标签可以加强效果,后置风格标签可以减弱效果;
❓ Question: 为何要在艺术风格标签中加入 by
前缀?
💡 Answer: 为了告知模型您想要生成的是一种艺术风格而非其他东西,我们建议在艺术风格标签中加入 by
前缀,以区分 by xxx
和 xxx
,特别是在 xxx
本身具有一定意义的前提下。例如 dino
,既可以是恐龙,又可以是 id。
同理,触发角色时还需要加入 1
作为角色触发词的前缀。
角色标签
角色标签描述了生成图像中的角色 IP。使用角色标签将引导模型生成角色的 外貌特征。
角色标签取自于 角色标签列表,若想要模型生成某个角色,则首先需要在标签库中找到对应角色的触发词,然后把触发词中的所有下划线 “_” 替换为空格 “ ”,并在角色名前添加 1
。
例如, 1 ayanami rei
触发模型生成动画《EVA》中的角色绫波丽,对应 danbooru 标签库中的 ayanami_rei
; 1 asuna(sao)
触发模型生成《刀剑神域》中的角色亚丝娜,对应 danbooru 标签库中的 asuna_(sao)
。
标签库中的标签计数(count)越高,说明该角色训练越充分,还原度也越高。通常,计数高于 100 的角色标签生成效果较好。
角色标签使用注意事项
- 角色换装:为了实现更灵活的角色换装,角色标签不会故意引导模型绘制角色的官方着装。若要生成特定官方着装的角色,则除了触发词外,还需要在提示词中加入着装描述,例如,“1 lucy (cyberpunk), wearing a white cropped jacket, underneath bodysuit, shorts, thighhighs, hip vent ”。
- 系列注释:部分角色标签会在角色名后添加额外的括号注释。括号及括号内的注释不能舍去,例如, 1 lucy (cyberpunk) 不能写成 1 lucy。除此之外,你不需要添加任何额外的注释,例如,您无需在角色标签后再添加上该角色所属的系列标签。
- 已知的缺陷 1:生成少部分角色时可能会出现莫名其妙的特征变形,例如, 1 asui tsuyu 触发生成角色蛙吹梅雨《我的英雄学院》时,会有概率在两眼之间生成一道额外的黑线,这是因为模型错误地将大圆眼睛解释为了眼镜,因此需要在负面提示词中加入 glasses 来避免这种情况。
- 已知的缺陷 2:生成冷门角色时,awa diffusion 可能会由于数据/训练量不足,出现特征还原不全的情况。 这时,我们建议您在提示词中除了角色名称外,适当扩写出更详细的角色描述,例如角色所属作品、种族、发色、穿着等等。
角色标签触发示例
❓ Question: 为什么一些角色标签中包含括号注释的内容?例如 lucy(cyberpunk)
?而有的则没有?例如 frieren
?
💡 Answer: 因为在不同作品中,可能会存在同名的角色,例如刀剑神域和碧蓝档案中都有名为 asuna
的角色。为了区分这些重名的角色,需要在角色名后注释上角色所属的作品名称,名称太长则缩写。对于名字独特,暂无重名的角色,如 frieren
,则不需要特别注释。
质量标签和美学标签
对于 awa diffusion 来说,在正面提示词中添加质量描述 相当重要。质量描述与质量标签和美学标签有关。
质量标签直接描述了生成图像的美丑,直接地影响了所生成图像的美学质量,包括细节、质感、人体结构、光影、色彩等。添加质量标签可以帮助模型生成更高质量的图像。
质量标签从高到低依次是:amazing quality -> best quality -> high quality -> normal quality -> low quality -> worst quality
美学标签描述了生成图像的美学特征,添加美学标签可以帮助模型生成富有艺术感的图像。
除了通常的美学单词,如 perspective
, lighting and shadow
外,经过 awa diffusion 特殊训练而同样有效的美学触发词还有 beautiful color
, detailed
和 aesthetic
,分别用以表达颇具美感的色彩、细节和唯美。
推荐的通用的质量描述方式为:<您的提示词>, beautiful color, detailed, amazing quality
质量标签和美学标签使用注意事项
- 标签数量:质量标签仅需添加一个;美学标签可以添加多个;
- 标签位置:质量标签和美学标签的位置不限,但通常放在提示词的末尾;
- 质量高低:质量没有绝对的高低之分,而是相对的。质量标签所意味的质量符合大众审美的标准,不同用户对质量的认知有所不同;
分级标签
分级标签描述了生成图像的内容的暴露程度。分级标签从高到低依次是:
rating: general (or safe ) -> rating: suggestive -> rating: questionable -> rating: explicit (or nsfw )
提示词示例
示例一
A
by yoneyama mai , 1 frieren , 1girl, solo, fantasy theme, smile, holding a magic wand, beautiful color , amazing quality
- by yoneyama mai 触发画师 yoneyama mai 的艺术风格,前置之以强化效果;
- 1 frieren 触发《葬送的芙莉莲》中的角色芙莉莲;
- beautiful color 描述生成图像的美丽色彩;
- amazing quality 描述生成图像的惊人质量。
B
by nixeu , 1 lucy (cyberpunk) , 1girl, solo, cowboy shot, gradient background, white cropped jacket, underneath bodysuit, shorts, thighhighs, hip vent, detailed , best quality
示例二:风格混合
通过叠加多个不同的风格标签,可以生成具有多种风格特征的图像。
A 简单混合
by ningen mame , by ciloranko , by sho (sho lwlw) , 1girl, 1 hatsune miku, sitting, arm support, smile, detailed, amazing quality
B 加权混合
以 AUTOMATIC1111 WebUI 提示词加权语法(括号加权)为例,加权不同风格标签的强度以更好地控制生成图像的风格。
(by ningen mame:0.8) , (by ciloranko:1.1) , (by sho (sho lwlw):1.2) , 1girl, 1 hatsune miku, sitting, arm support, smile, detailed, amazing quality
C 高级混合
以 AUTOMATIC1111 WebUI 提示词混合语法(竖线混合)为例,用 `|` 符号在括号中分隔不同部分以直接混合词语。
(by trickortreat|by shiroski|by wlop|by baihuahua|by as109), 1girl, 1 hatsune miku, sitting, arm support, smile, detailed, amazing quality
示例三:多人同框
通过在提示词中添加多个角色标签,能够生成多个角色同框的图像。与其他同类模型相比,awa 在多人同框方面表现更好,但仍不稳定。
A 异性角色同框
1girl and 1boy, 1 ganyu girl, 1 gojou satoru boy, beautiful color, amazing quality
B 同性角色同框
2girls, 1 ganyu girl, 1 yoimiya girl, beautiful color, amazing quality
未来的工作
awa diffusion 被期望兼具高度的 美学 和全面的 知识 。它不应该具有传统 AI 强烈的油腻感,也不应该成为知识储备不足的花瓶。
我们将不断探索更先进的训练策略和技术,不断提升模型的质量。
赞助我们
训练 awa diffusion 的开销巨大。如果您喜欢我们的工作,欢迎通过 Ko-fi 赞助我们,以支持我们的研究和开发,感谢您的喜爱和支持!