ArtiWaifu Diffusion 2.0

我们发布了 ArtiWaifu Diffusion 2.0 模型，用于生成美观且还原的动漫风格插画。
awa diffusion 迭代自 ArtiWaifu Diffusion 1.0 模型，掌握 0000+ 种艺术风格和 6000+ 个动漫角色等大量 ACG 概念，通过触发词生成。
作为二次元特化的图像生成模型，它在生成高质量的二次元图像时表现出色，特别是在生成具有高辨识度风格和角色的同时，维持图像一贯高质量的美学表达。

模型细节

awa diffusion 模型微调自 ArtiWaifu Diffusion 1.0，精选了 150 万的高质量动漫图像作为数据集，知识涵盖了截止至 2024 年 4 月 15 日的各种冷热门的二次元概念。
awa diffusion 采用了我们最先进的训练策略，允许用户轻松地诱导模型生成特定角色或风格的图像，同时保持图像的高质量和美学表达。

模型信息

模型开发: Euge ( https://civitai.com/user/Euge_ )
算力赞助：Neta.art ( https://nieta.art/ )
模型类型：生成式文生图扩散模型
微调自基础模型：ArtiWaifu Diffusion 1.0 ( https://huggingface.co/Eugeoter/artiwaifu-diffusion-1.0 )
模型证书: Fair AI Public License 1.0-SD ( https://freedevproject.org/faipl-1.0-sd/ )

使用指南

该指南将 (i) 介绍模型的推荐使用方法和提示词编写策略，旨在提供生成方面的建议，并 (ii) 作为模型使用的参考文档，介绍触发词、质量标签、分级标签、风格标签和角色标签的编写模式和策略。

基本用法

CFG scale: 5-11, 推荐值为 7.5
Resolution: 面积（= 宽 x 高）围绕 1024x1024。不低于 256x256，且长和宽均为 32 倍数的分辨率。
Sampling method: Euler A (20+ steps) 或 DPM++ 2M Karras (~35 steps)

由于特殊的训练方式，awa 的最佳推理步数高于常规值。随着推理步数的进一步提高，生成图像的质量能够继续提升……

❓ Question: 为什么不使用标准的 SDXL 分辨率？

💡 Answer: 因为训练所用的分桶算法并没有固定一套分桶。虽然这不符合位置编码，但我们并未观察到不良影响。

提示词编排

所有文生图扩散模型有一个臭名昭著的特性，那就是它对提示词的敏感度极高。awa diffusion 也不例外。即便是单词拼写错误，甚至是将提示词中的空格替换为下划线，都会导致生成结果受到影响。
awa diffusion 鼓励用户使用以 逗号+空格 分隔的 标签（tag） 形式来编写提示词。虽然模型也支持自然语言的图像描述作为提示词，或是二者穿插，但效果不如标签形式稳定易用。

在描述某种特定的 ACG 概念，例如角色、风格、场景等时，我们建议用户在撰写标签时从Danbooru 标签库中选择标签，并将 danbooru 标签中的下划线替换为空格，以确保模型能够准确理解您的需求。例如， bishop_(chess) 应该写成 bishop (chess)，在 AUTOMATIC1111 WebUI 等通过圆括号加权提示词的推理工具中，需要对标签内的所有括号转义，即为 bishop \(chess\)。

标签排序

包括 awa diffusion 在内的大多数扩散模型都更擅长理解在逻辑上有序的标签。虽然标签排序不是必须的，但是可以帮助模型更好地理解您的需求。一般来说，顺序越靠前的文本对生成的影响最大。

下面是一个标签排序的例子。该示例组织了标签顺序，前置了艺术风格标签和角色标签，因为风格和主体是画面的核心。随后，我们按从主到次的顺序添加其他标签。最后，后置美学标签和质量标签，进一步强调画面的美感。

art style (by xxx) -> character (1 frieren (sousou no frieren)) -> race (elf) -> composition (cowboy shot) -> painting style (impasto) -> theme (fantasy theme) -> main environment (in the forest, at day) -> background (gradient background) -> action (sitting on ground) -> expression (expressionless) -> main characteristics (white hair) -> other characteristics (twintails, green eyes, parted lip) -> clothing (wearing a white dress) -> clothing accessories (frills) -> other items (holding a magic wand) -> secondary environment (grass, sunshine) -> aesthetics (beautiful color, detailed) -> quality (best quality) -> secondary description (birds, cloud, butterfly)

标签顺序不是一成不变的。在实际撰写提示词时，灵活应变能够取得更好的结果。例如，当一种概念（例如风格）的效果过于强烈，以至于影响画面美观时，您可以后置它以减弱其影响。

负面提示词

负面提示词对于 awa diffusion 来说不是必须的，而且也不是越多越好，而是应做到 尽量精简且易于被模型识别。过多的负面提示词可能会导致生成效果变差。
以下是推荐的负面提示词的使用场景：

水印类： signature, logo, artist name；
质量类： worst quality, lowres, ugly, abstract；
风格类： real life, 3d, celluloid, sketch, draft；
人体结构类： deformed hand, fused fingers, extra limbs, extra arms, missing arm, extra legs, missing leg, extra digits, fewer digits。

触发词

在提示词中加入触发词以告知模型您所要生成概念。触发词可以是角色名、艺术风格、场景、动作、质量等等。

触发词使用注意事项

注意拼写：模型对触发词的拼写十分敏感，即便一个字母的差异也可能会导致触发失败或出现意料之外的结果；
注意括号：注意在使用依靠圆括号加权提示词的推理工具，如 AUTOMATIC1111 WebUI 时，要在触发词中对括号转义，例如 1lucy(cyberpunk) -> 1lucy \(cyberpunk\)；
触发词预览：通过在 Danbooru 上搜索触发词，可以查看与触发词相关的图像，以了解触发词的效果。

风格标签

风格标签描述了生成图像的风格特征，风格覆盖范围为所生成图像的材质和布局。

风格标签分为两种，绘画风格标签和艺术风格标签。绘画风格标签描述了生成图像的绘制技法或媒介，例如油画、水彩、平涂和厚涂等。艺术风格标签则代表图像背后的艺术家风格。

awa diffusion 所支持的绘画风格标签有：

Danbooru 标签中拥有的绘画风格标签，如 oil painting, watercolor, flat color 等；
AID XL 0.8 所支持的所有绘画风格标签，如 flat-pasto 等；
Neta Art XL 1.0 所支持的所有风格标签，如 gufeng等；

参阅 绘画风格标签列表 以获取完整的绘画风格标签。

awa diffusion 所支持的艺术风格标签有：

Danbooru 标签中拥有的艺术风格标签，如 by yoneyama mai, by wlop 等；
AID XL 0.8 所支持的所有艺术风格标签，如 by antifreeze3, by 7thknights 等；
实验性地加入超棒的 AI 画风，包括：by shiroski, by trickortreat, by nyalia, by pasota, by xerganea, 和 by yandantui.

标签库中的标签计数（count）越高，说明该艺术风格训练越充分，还原度也越高。通常，计数高于 50 的艺术风格标签生成效果较好。

参阅 艺术风格标签列表 以获取完整的艺术风格标签。

风格标签使用注意事项

强弱调节：可通过调整风格标签在提示词中的顺序或加权来调整风格强度，前置风格标签可以加强效果，后置风格标签可以减弱效果；

❓ Question: 为何要在艺术风格标签中加入 by 前缀？

💡 Answer: 为了告知模型您想要生成的是一种艺术风格而非其他东西，我们建议在艺术风格标签中加入 by 前缀，以区分 by xxx 和 xxx，特别是在 xxx 本身具有一定意义的前提下。例如 dino，既可以是恐龙，又可以是 id。
同理，触发角色时还需要加入 1 作为角色触发词的前缀。

角色标签

角色标签描述了生成图像中的角色 IP。使用角色标签将引导模型生成角色的 外貌特征。

角色标签取自于 角色标签列表，若想要模型生成某个角色，则首先需要在标签库中找到对应角色的触发词，然后把触发词中的所有下划线 “_” 替换为空格 “ ”，并在角色名前添加 1。
例如， 1 ayanami rei 触发模型生成动画《EVA》中的角色绫波丽，对应 danbooru 标签库中的 ayanami_rei； 1 asuna(sao) 触发模型生成《刀剑神域》中的角色亚丝娜，对应 danbooru 标签库中的 asuna_(sao)。
标签库中的标签计数（count）越高，说明该角色训练越充分，还原度也越高。通常，计数高于 100 的角色标签生成效果较好。

角色标签使用注意事项

角色换装：为了实现更灵活的角色换装，角色标签不会故意引导模型绘制角色的官方着装。若要生成特定官方着装的角色，则除了触发词外，还需要在提示词中加入着装描述，例如，“1 lucy (cyberpunk), wearing a white cropped jacket, underneath bodysuit, shorts, thighhighs, hip vent ”。
系列注释：部分角色标签会在角色名后添加额外的括号注释。括号及括号内的注释不能舍去，例如， 1 lucy (cyberpunk) 不能写成 1 lucy。除此之外，你不需要添加任何额外的注释，例如，您无需在角色标签后再添加上该角色所属的系列标签。
已知的缺陷 1：生成少部分角色时可能会出现莫名其妙的特征变形，例如， 1 asui tsuyu 触发生成角色蛙吹梅雨《我的英雄学院》时，会有概率在两眼之间生成一道额外的黑线，这是因为模型错误地将大圆眼睛解释为了眼镜，因此需要在负面提示词中加入 glasses 来避免这种情况。
已知的缺陷 2：生成冷门角色时，awa diffusion 可能会由于数据/训练量不足，出现特征还原不全的情况。这时，我们建议您在提示词中除了角色名称外，适当扩写出更详细的角色描述，例如角色所属作品、种族、发色、穿着等等。

角色标签触发示例

❓ Question: 为什么一些角色标签中包含括号注释的内容？例如 lucy(cyberpunk)？而有的则没有？例如 frieren？

💡 Answer: 因为在不同作品中，可能会存在同名的角色，例如刀剑神域和碧蓝档案中都有名为 asuna 的角色。为了区分这些重名的角色，需要在角色名后注释上角色所属的作品名称，名称太长则缩写。对于名字独特，暂无重名的角色，如 frieren，则不需要特别注释。

质量标签和美学标签

对于 awa diffusion 来说，在正面提示词中添加质量描述 相当重要。质量描述与质量标签和美学标签有关。

质量标签直接描述了生成图像的美丑，直接地影响了所生成图像的美学质量，包括细节、质感、人体结构、光影、色彩等。添加质量标签可以帮助模型生成更高质量的图像。
质量标签从高到低依次是：amazing quality -> best quality -> high quality -> normal quality -> low quality -> worst quality

美学标签描述了生成图像的美学特征，添加美学标签可以帮助模型生成富有艺术感的图像。
除了通常的美学单词，如 perspective, lighting and shadow 外，经过 awa diffusion 特殊训练而同样有效的美学触发词还有 beautiful color, detailed 和 aesthetic，分别用以表达颇具美感的色彩、细节和唯美。

推荐的通用的质量描述方式为：<您的提示词>, beautiful color, detailed, amazing quality

质量标签和美学标签使用注意事项

标签数量：质量标签仅需添加一个；美学标签可以添加多个；
标签位置：质量标签和美学标签的位置不限，但通常放在提示词的末尾；
质量高低：质量没有绝对的高低之分，而是相对的。质量标签所意味的质量符合大众审美的标准，不同用户对质量的认知有所不同；

分级标签

分级标签描述了生成图像的内容的暴露程度。分级标签从高到低依次是：

rating: general (or safe ) -> rating: suggestive -> rating: questionable -> rating: explicit (or nsfw )

提示词示例

示例一

by yoneyama mai , 1 frieren , 1girl, solo, fantasy theme, smile, holding a magic wand, beautiful color , amazing quality

by yoneyama mai 触发画师 yoneyama mai 的艺术风格，前置之以强化效果；
1 frieren 触发《葬送的芙莉莲》中的角色芙莉莲；
beautiful color 描述生成图像的美丽色彩；
amazing quality 描述生成图像的惊人质量。

by nixeu , 1 lucy (cyberpunk) , 1girl, solo, cowboy shot, gradient background, white cropped jacket, underneath bodysuit, shorts, thighhighs, hip vent, detailed , best quality

示例二：风格混合

通过叠加多个不同的风格标签，可以生成具有多种风格特征的图像。

A 简单混合

by ningen mame , by ciloranko , by sho (sho lwlw) , 1girl, 1 hatsune miku, sitting, arm support, smile, detailed, amazing quality

B 加权混合

以 AUTOMATIC1111 WebUI 提示词加权语法（括号加权）为例，加权不同风格标签的强度以更好地控制生成图像的风格。

(by ningen mame:0.8) , (by ciloranko:1.1) , (by sho (sho lwlw):1.2) , 1girl, 1 hatsune miku, sitting, arm support, smile, detailed, amazing quality

C 高级混合

以 AUTOMATIC1111 WebUI 提示词混合语法（竖线混合）为例，用 `|` 符号在括号中分隔不同部分以直接混合词语。

(by trickortreat|by shiroski|by wlop|by baihuahua|by as109), 1girl, 1 hatsune miku, sitting, arm support, smile, detailed, amazing quality

示例三：多人同框

通过在提示词中添加多个角色标签，能够生成多个角色同框的图像。与其他同类模型相比，awa 在多人同框方面表现更好，但仍不稳定。

A 异性角色同框

1girl and 1boy, 1 ganyu girl, 1 gojou satoru boy, beautiful color, amazing quality

B 同性角色同框

2girls, 1 ganyu girl, 1 yoimiya girl, beautiful color, amazing quality

未来的工作

awa diffusion 被期望兼具高度的美学和全面的知识。它不应该具有传统 AI 强烈的油腻感，也不应该成为知识储备不足的花瓶。
我们将不断探索更先进的训练策略和技术，不断提升模型的质量。

赞助我们

训练 awa diffusion 的开销巨大。如果您喜欢我们的工作，欢迎通过 Ko-fi 赞助我们，以支持我们的研究和开发，感谢您的喜爱和支持！