中国银河：人工智能动态点评：VideoWorld模型开源，探索模型训练新路径

发布者：wx****6d

2025-02-12

1020 KB 3 页

影视中国银河

文件列表：

中国银河：人工智能动态点评：VideoWorld模型开源，探索模型训练新路径.pdf

下载文档

资源简介

事件：2月10日，豆包大模型团队联合北京交通大学、中国科学技术大学共同开发的视频生成实验模型“VideoWorld”开源。纯视觉训练模型，摆脱语言模型依赖：现有的各类多模态模型如GPT、Sora等大多较为依赖语言或标签数据学习知识，较少涉及纯视觉信号的学习。VideoWorld可以通过纯视觉的方式进行学习训练：团队构建了一个包含大量视频演示数据的离线数据集，让模型以“观看”的方式进行训练学习，最终得到一个可以根据过往观测到的视觉输入来推演、预测未来画面的视频生成器。我们认为，VideoWorld摆脱了以往模型对语言模型的依赖，通过纯视觉的方式进行学习，改变了以往的模型需要对语言文本进行理解后再进行推理的定式，有望简化模型的输入-理解-推理-输出链条。引入潜在动态模型，提高视频学习效率：目前，传统的视觉的训练方式由于需要将画面转换为离散标记后进行学习。例如，在围棋的训练过程中，模型只需通过少量的棋子位置标记，但在数据的编码过程中，编码器会产生过多冗余标记，不利于模型对复杂知识的快速学习，使得视频序列的知识挖掘效率显著落后于文本形式。VideoWorld引入了一个潜在动态模型（Late

加载中...

已阅读到文档的结尾了

下载文档