ArtiWaifu Diffusion 2.0



我们发布了 ArtiWaifu Diffusion 2.0 模型,用于生成美观且还原的动漫风格插画。
awa diffusion 迭代自 ArtiWaifu Diffusion 1.0 模型,掌握 0000+ 种艺术风格和 6000+ 个动漫角色等大量 ACG 概念,通过触发词生成。
作为二次元特化的图像生成模型,它在生成高质量的二次元图像时表现出色,特别是在生成具有高辨识度风格和角色的同时,维持图像一贯高质量的美学表达。



模型细节

awa diffusion 模型微调自 ArtiWaifu Diffusion 1.0,精选了 150 万的高质量动漫图像作为数据集,知识涵盖了截止至 2024 年 4 月 15 日的各种冷热门的二次元概念。
awa diffusion 采用了我们最先进的训练策略,允许用户轻松地诱导模型生成特定角色或风格的图像,同时保持图像的高质量和美学表达。


模型信息



使用指南

该指南将 (i) 介绍模型的推荐使用方法和提示词编写策略,旨在提供生成方面的建议,并 (ii) 作为模型使用的参考文档,介绍触发词、质量标签、分级标签、风格标签和角色标签的编写模式和策略。


基本用法

  • CFG scale: 5-11, 推荐值为 7.5
  • Resolution: 面积(= 宽 x 高)围绕 1024x1024。不低于 256x256,且长和宽均为 32 倍数的分辨率。
  • Sampling method: Euler A (20+ steps) 或 DPM++ 2M Karras (~35 steps)

由于特殊的训练方式,awa 的最佳推理步数高于常规值。随着推理步数的进一步提高,生成图像的质量能够继续提升……


Question: 为什么不使用标准的 SDXL 分辨率?

💡 Answer: 因为训练所用的分桶算法并没有固定一套分桶。虽然这不符合位置编码,但我们并未观察到不良影响。



提示词编排

所有文生图扩散模型有一个臭名昭著的特性,那就是它对提示词的敏感度极高。awa diffusion 也不例外。即便是单词拼写错误,甚至是将提示词中的空格替换为下划线,都会导致生成结果受到影响。
awa diffusion 鼓励用户使用以 逗号+空格 分隔的 标签(tag) 形式来编写提示词。虽然模型也支持自然语言的图像描述作为提示词,或是二者穿插,但效果不如标签形式稳定易用。


在描述某种特定的 ACG 概念,例如角色、风格、场景等时,我们建议用户在撰写标签时从Danbooru 标签库中选择标签,并将 danbooru 标签中的下划线替换为空格,以确保模型能够准确理解您的需求。例如, bishop_(chess) 应该写成 bishop (chess),在 AUTOMATIC1111 WebUI 等通过圆括号加权提示词的推理工具中,需要对标签内的所有括号转义,即为 bishop \(chess\)


标签排序

包括 awa diffusion 在内的大多数扩散模型都更擅长理解在逻辑上有序的标签。虽然标签排序不是必须的,但是可以帮助模型更好地理解您的需求。一般来说,顺序越靠前的文本对生成的影响最大。


下面是一个标签排序的例子。该示例组织了标签顺序,前置了艺术风格标签和角色标签,因为风格和主体是画面的核心。随后,我们按从主到次的顺序添加其他标签。最后,后置美学标签和质量标签,进一步强调画面的美感。

art style (by xxx) -> character (1 frieren (sousou no frieren)) -> race (elf) -> composition (cowboy shot) -> painting style (impasto) -> theme (fantasy theme) -> main environment (in the forest, at day) -> background (gradient background) -> action (sitting on ground) -> expression (expressionless) -> main characteristics (white hair) -> other characteristics (twintails, green eyes, parted lip) -> clothing (wearing a white dress) -> clothing accessories (frills) -> other items (holding a magic wand) -> secondary environment (grass, sunshine) -> aesthetics (beautiful color, detailed) -> quality (best quality) -> secondary description (birds, cloud, butterfly)


标签顺序不是一成不变的。在实际撰写提示词时,灵活应变能够取得更好的结果。例如,当一种概念(例如风格)的效果过于强烈,以至于影响画面美观时,您可以后置它以减弱其影响。


负面提示词

负面提示词对于 awa diffusion 来说不是必须的,而且也不是越多越好,而是应做到 尽量精简且易于被模型识别。过多的负面提示词可能会导致生成效果变差。
以下是推荐的负面提示词的使用场景:

  1. 水印类: signature, logo, artist name;
  2. 质量类: worst quality, lowres, ugly, abstract;
  3. 风格类: real life, 3d, celluloid, sketch, draft;
  4. 人体结构类: deformed hand, fused fingers, extra limbs, extra arms, missing arm, extra legs, missing leg, extra digits, fewer digits。

触发词

在提示词中加入触发词以告知模型您所要生成概念。触发词可以是角色名、艺术风格、场景、动作、质量等等。

触发词使用注意事项

  1. 注意拼写:模型对触发词的拼写十分敏感,即便一个字母的差异也可能会导致触发失败或出现意料之外的结果;
  2. 注意括号:注意在使用依靠圆括号加权提示词的推理工具,如 AUTOMATIC1111 WebUI 时,要在触发词中对括号转义,例如 1lucy(cyberpunk) -> 1lucy \(cyberpunk\);
  3. 触发词预览:通过在 Danbooru 上搜索触发词,可以查看与触发词相关的图像,以了解触发词的效果。

风格标签

风格标签描述了生成图像的风格特征,风格覆盖范围为所生成图像的材质和布局。

风格标签分为两种, 绘画风格标签 艺术风格标签 绘画风格标签 描述了生成图像的绘制技法或媒介,例如油画、水彩、平涂和厚涂等。 艺术风格标签 则代表图像背后的艺术家风格。


awa diffusion 所支持的 绘画风格标签 有:

  • Danbooru 标签中拥有的绘画风格标签,如 oil painting, watercolor, flat color 等;
  • AID XL 0.8 所支持的所有绘画风格标签,如 flat-pasto 等;
  • Neta Art XL 1.0 所支持的所有风格标签,如 gufeng等;

参阅 绘画风格标签列表 以获取完整的绘画风格标签。


awa diffusion 所支持的 艺术风格标签 有:

  • Danbooru 标签中拥有的艺术风格标签,如 by yoneyama mai, by wlop 等;
  • AID XL 0.8 所支持的所有艺术风格标签,如 by antifreeze3, by 7thknights 等;
  • 实验性地加入超棒的 AI 画风,包括:by shiroski, by trickortreat, by nyalia, by pasota, by xerganea, 和 by yandantui.

标签库中的标签计数(count)越高,说明该艺术风格训练越充分,还原度也越高。通常,计数高于 50 的艺术风格标签生成效果较好。

参阅 艺术风格标签列表 以获取完整的艺术风格标签。


风格标签使用注意事项

  1. 强弱调节:可通过调整风格标签在提示词中的顺序或加权来调整风格强度,前置风格标签可以加强效果,后置风格标签可以减弱效果;


Question: 为何要在艺术风格标签中加入 by 前缀?

💡 Answer: 为了告知模型您想要生成的是一种艺术风格而非其他东西,我们建议在艺术风格标签中加入 by 前缀,以区分 by xxxxxx,特别是在 xxx 本身具有一定意义的前提下。例如 dino,既可以是恐龙,又可以是 id。
同理,触发角色时还需要加入 1 作为角色触发词的前缀。



角色标签

角色标签描述了生成图像中的角色 IP。使用角色标签将引导模型生成角色的 外貌特征

角色标签取自于 角色标签列表,若想要模型生成某个角色,则首先需要在标签库中找到对应角色的触发词,然后把触发词中的所有下划线 “_” 替换为空格 “ ”,并在角色名前添加 1
例如, 1 ayanami rei 触发模型生成动画《EVA》中的角色绫波丽,对应 danbooru 标签库中的 ayanami_rei1 asuna(sao) 触发模型生成《刀剑神域》中的角色亚丝娜,对应 danbooru 标签库中的 asuna_(sao)
标签库中的标签计数(count)越高,说明该角色训练越充分,还原度也越高。通常,计数高于 100 的角色标签生成效果较好。


角色标签使用注意事项

  1. 角色换装:为了实现更灵活的角色换装,角色标签不会故意引导模型绘制角色的官方着装。若要生成特定官方着装的角色,则除了触发词外,还需要在提示词中加入着装描述,例如,“1 lucy (cyberpunk), wearing a white cropped jacket, underneath bodysuit, shorts, thighhighs, hip vent ”。
  2. 系列注释:部分角色标签会在角色名后添加额外的括号注释。括号及括号内的注释不能舍去,例如, 1 lucy (cyberpunk) 不能写成 1 lucy。除此之外,你不需要添加任何额外的注释,例如,您无需在角色标签后再添加上该角色所属的系列标签。
  3. 已知的缺陷 1:生成少部分角色时可能会出现莫名其妙的特征变形,例如, 1 asui tsuyu 触发生成角色蛙吹梅雨《我的英雄学院》时,会有概率在两眼之间生成一道额外的黑线,这是因为模型错误地将大圆眼睛解释为了眼镜,因此需要在负面提示词中加入 glasses 来避免这种情况。
  4. 已知的缺陷 2:生成冷门角色时,awa diffusion 可能会由于数据/训练量不足,出现特征还原不全的情况。 这时,我们建议您在提示词中除了角色名称外,适当扩写出更详细的角色描述,例如角色所属作品、种族、发色、穿着等等。


角色标签触发示例


Question: 为什么一些角色标签中包含括号注释的内容?例如 lucy(cyberpunk)?而有的则没有?例如 frieren

💡 Answer: 因为在不同作品中,可能会存在同名的角色,例如刀剑神域和碧蓝档案中都有名为 asuna 的角色。为了区分这些重名的角色,需要在角色名后注释上角色所属的作品名称,名称太长则缩写。对于名字独特,暂无重名的角色,如 frieren,则不需要特别注释。



质量标签和美学标签

对于 awa diffusion 来说,在正面提示词中添加质量描述 相当重要。质量描述与质量标签和美学标签有关。


质量标签直接描述了生成图像的美丑,直接地影响了所生成图像的美学质量,包括细节、质感、人体结构、光影、色彩等。添加质量标签可以帮助模型生成更高质量的图像。
质量标签从高到低依次是:amazing quality -> best quality -> high quality -> normal quality -> low quality -> worst quality


美学标签描述了生成图像的美学特征,添加美学标签可以帮助模型生成富有艺术感的图像。
除了通常的美学单词,如 perspective, lighting and shadow 外,经过 awa diffusion 特殊训练而同样有效的美学触发词还有 beautiful color, detailedaesthetic,分别用以表达颇具美感的色彩、细节和唯美。


推荐的通用的质量描述方式为:<您的提示词>, beautiful color, detailed, amazing quality


质量标签和美学标签使用注意事项

  1. 标签数量:质量标签仅需添加一个;美学标签可以添加多个;
  2. 标签位置:质量标签和美学标签的位置不限,但通常放在提示词的末尾;
  3. 质量高低:质量没有绝对的高低之分,而是相对的。质量标签所意味的质量符合大众审美的标准,不同用户对质量的认知有所不同;


分级标签

分级标签描述了生成图像的内容的暴露程度。分级标签从高到低依次是:

rating: general (or safe ) -> rating: suggestive -> rating: questionable -> rating: explicit (or nsfw )



提示词示例

示例一

A

by yoneyama mai , 1 frieren , 1girl, solo, fantasy theme, smile, holding a magic wand, beautiful color , amazing quality

  1. by yoneyama mai 触发画师 yoneyama mai 的艺术风格,前置之以强化效果;
  2. 1 frieren 触发《葬送的芙莉莲》中的角色芙莉莲;
  3. beautiful color 描述生成图像的美丽色彩;
  4. amazing quality 描述生成图像的惊人质量。


B

by nixeu , 1 lucy (cyberpunk) , 1girl, solo, cowboy shot, gradient background, white cropped jacket, underneath bodysuit, shorts, thighhighs, hip vent, detailed , best quality


示例二:风格混合

通过叠加多个不同的风格标签,可以生成具有多种风格特征的图像。


A 简单混合

by ningen mame , by ciloranko , by sho (sho lwlw) , 1girl, 1 hatsune miku, sitting, arm support, smile, detailed, amazing quality


B 加权混合

以 AUTOMATIC1111 WebUI 提示词加权语法(括号加权)为例,加权不同风格标签的强度以更好地控制生成图像的风格。

(by ningen mame:0.8) , (by ciloranko:1.1) , (by sho (sho lwlw):1.2) , 1girl, 1 hatsune miku, sitting, arm support, smile, detailed, amazing quality


C 高级混合

以 AUTOMATIC1111 WebUI 提示词混合语法(竖线混合)为例,用 `|` 符号在括号中分隔不同部分以直接混合词语。

(by trickortreat|by shiroski|by wlop|by baihuahua|by as109), 1girl, 1 hatsune miku, sitting, arm support, smile, detailed, amazing quality


示例三:多人同框

通过在提示词中添加多个角色标签,能够生成多个角色同框的图像。与其他同类模型相比,awa 在多人同框方面表现更好,但仍不稳定。

A 异性角色同框

1girl and 1boy, 1 ganyu girl, 1 gojou satoru boy, beautiful color, amazing quality


B 同性角色同框

2girls, 1 ganyu girl, 1 yoimiya girl, beautiful color, amazing quality



未来的工作

awa diffusion 被期望兼具高度的 美学 和全面的 知识 。它不应该具有传统 AI 强烈的油腻感,也不应该成为知识储备不足的花瓶。
我们将不断探索更先进的训练策略和技术,不断提升模型的质量。



赞助我们

训练 awa diffusion 的开销巨大。如果您喜欢我们的工作,欢迎通过 Ko-fi 赞助我们,以支持我们的研究和开发,感谢您的喜爱和支持!