×
img

中国银河:人工智能动态点评:VideoWorld模型开源,探索模型训练新路径

发布者:wx****6d
2025-02-12
1020 KB 3 页
影视 中国银河
文件列表:
中国银河:人工智能动态点评:VideoWorld模型开源,探索模型训练新路径.pdf
下载文档
事件:2月10日,豆包大模型团队联合北京交通大学、中国科学技术大学共同开发的视频生成实验模型“VideoWorld”开源。 纯视觉训练模型,摆脱语言模型依赖:现有的各类多模态模型如GPT、Sora等大多较为依赖语言或标签数据学习知识,较少涉及纯视觉信号的学习。VideoWorld可以通过纯视觉的方式进行学习训练:团队构建了一个包含大量视频演示数据的离线数据集,让模型以“观看”的方式进行训练学习,最终得到一个可以根据过往观测到的视觉输入来推演、预测未来画面的视频生成器。我们认为,VideoWorld摆脱了以往模型对语言模型的依赖,通过纯视觉的方式进行学习,改变了以往的模型需要对语言文本进行理解后再进行推理的定式,有望简化模型的输入-理解-推理-输出链条。 引入潜在动态模型,提高视频学习效率:目前,传统的视觉的训练方式由于需要将画面转换为离散标记后进行学习。例如,在围棋的训练过程中,模型只需通过少量的棋子位置标记,但在数据的编码过程中,编码器会产生过多冗余标记,不利于模型对复杂知识的快速学习,使得视频序列的知识挖掘效率显著落后于文本形式。VideoWorld引入了一个潜在动态模型(Late

加载中...

已阅读到文档的结尾了

下载文档

网友评论>