文件列表:
国金证券:AI模型系列报告:从世界模型看算力需求变化.pdf |
下载文档 |
资源简介
>
核心观点
Sora是第一个表现出"涌现"能力的视频生成模型:随着模型规模增大而出现“理解世界”的能力。虽然许多LLM,如ChatGPT和GPT-4,表现出涌现能力,但在Sora出现之前,展示类似能力的视觉模型一直很少。根据Sora的技术报告,它是第一个表现出确认的涌现能力的视觉模型,标志着计算机视觉领域的一个重要里程碑。
Sora的成功源于DiffusionTransformer架构的引入,和过去多年高质量数据的积累。
从架构上看,视频生成模型的技术路线开始收敛,Sora的DiffusionTransformer架构证实了有效scale-up也即是增加算力能够对提升视频生成的精细度和效果,是视频生成领域的"GPT-3时刻"。类似于GPT-3证明了更大的训练量、模型参数量、Token数量,训练效果越好。引入了Transformer的Sora也表现出了同样的趋势,OpenAI进行了32x训练量和1x、4x训练量的对比,从结果上看,32x训练量的生成效果远远强于1x和4x的生成效果。在Sora发布后Google、Snap也发布了采用类似技术的视频生成模型,确定了DiffusionTransf
加载中...
已阅读到文档的结尾了