Hunyuan-DiT : A Powerful Multi-Resolution Diffusion Transformer with Fine-Grained Chinese Understanding
腾讯混元DiT模型已升级至1.2版本,推出小显存版本与Kohya训练界面,进一步降低使用门槛的同时提升图片质量,最低仅需6G显存即可运行优化推理框架。Kohya是一个开源的、轻量化模型微调训练服务,提供了图形化的用户界面,被广泛用于扩散模型类文生图模型的训练。用户可以通过图形化界面,完成模型的全参精调及LoRA训练,无需涉及到代码层面的细节。训练好的模型符合Kohya生态架构,可以低成本与 WebUI 等推理界面结合,实现一整套“训练-生图”工作流。
中英双语DIT架构
对比分析
为了全面对比混元DiT与其他模型的生成能力,我们构建了4维测试集,包括Text-Image Consistency、Excluding AI Artifact、Subject Clarity,、Aesthetic,由50多位专业评测人员进行评测。
部分展示
- Long Text Input
作为首个中文原生DiT开源模型,混元DiT自全面开源以来,一直持续建设生态。6月,混元DiT发布的专属加速库,可将推理效率进一步提升,生图时间缩短75%;并进一步开源了推理代码;发布LoRA和ControlNet等插件。于此同时,模型易用性大幅提升,用户可以通过Hugging Face Diffusers快讯调用混元DiT模型及其插件,或基于Kohya和ComfyUI等图形化界面训练与使用混元DiT。
目前,在众多开发者的支持下,混元DiT发布不到2个月,Github Star数已经超过2.6k,成为最受欢迎的国产DiT开源模型。
小伙伴们快去试试吧!!!
请一定遵循混元模型的开源协议哦!
官网:https://dit.hunyuan.tencent.com/
论文:https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf
数据制作流程:https://github.com/Tencent/HunyuanDiT/blob/main/IndexKits/docs/MakeDataset.md