Wan2.1是由阿里巴巴通义万相团队开发的下一代视频生成模型,它在AI驱动的视觉内容创作领域实现了显著的飞跃。

  • • 中英文视频模型:Wan2.1 是第一个能够生成中英文文本的视频模型,具有强大的文本生成能力,增强了其实用性。可生成具有电影级效果的文字和动画。支持多种场景下的字体应用,包括特效字体、海报字体以及真实场景中的字体展示,满足各种专业需求。
  • • 多视频任务:提供了强大的文本到视频(text-to-video)和图像到视频(image-to-video)生成,以及视频编辑、视频到音频等任务能力。
  • • 高质量性能:Wan 2.1 基于混合变分自编码器(VAE)和扩散变换器(DiT)架构,增强了时间建模和场景理解能力。它通过多模态融合技术,能够同时生成高清视频、动态字幕和多语言配音,支持 1080p 分辨率和高效的编解码,确保视频输出的高质量。2025年1月,阿里通义万相Wan2.1模型登顶Vbench榜首第一,超越Sora、HunyuanVideo、Minimax、Luma、Gen3、Pika等国内外视频生成模型。同时在多个基准测试中持续超越现有的开源模型和最先进的商业解决方案。