×
img

阿里巴巴集团万象团队:2025年WAN:开放和先进的大模型视频生成模型报告

发布者:wx****2b
2025-04-15
21 MB 60 页
人工智能(AI) 阿里巴巴
文件列表:
阿里巴巴集团万象团队:2025年WAN:开放和先进的大模型视频生成模型报告.pdf
下载文档

份报告介绍了“Wan”一个全面开放的视频基础模型套件,旨在推动视频生成的边界。 Wan建立在主流扩散变压器范式之上,通过一系列创新(包括我们的新颖时空变分自动编码器(VAE)、可扩展的预训练策略、大规模数据整理和自动化评估指标)在生成能力方面取得了重大进展。这些贡献共同增强了模型的性能和多功能性。具体而言,Wan具有四个关键特性:领先性能:Wan的14B模型在一个包含数十亿张图像和视频的庞大数据集上进行训练,展示了视频生成相对于数据和模型大小的扩展规律。它在多个内部和外部基准测试中始终优于现有的开源模型以及最先进的商业解决方案,表现出明显和显著的性能优势。全面性:Wan提供两个强大的模型,即1.3B和14B参数,分别用于效率和有效性。它还盖多个下游应用,包括图像到视频、指导式视频编辑和个人视频生成,涵盖多达八个任务。同时,Wan是第一个可以生成中文和英文视觉文本的模型,极大增强了其实用价值。消费级效率:1.3B模型展示出卓越的资源效率,仅需8.19GB的VRAM,使其与各种消费级GPU兼容。


加载中...

本文档仅能预览20页

继续阅读请下载文档

网友评论>

开通智库会员享超值特权
专享文档
免费下载
免广告
更多特权
立即开通

发布机构

更多>>