×
img

民生证券:计算机行业点评:豆包开源视频大模型激活每个摄像头

发布者:wx****ea
2025-02-11
589 KB 2 页
互联网 民生证券
文件列表:
民生证券:计算机行业点评:豆包开源视频大模型激活每个摄像头.pdf
下载文档
事件:2月10日,据豆包大模型团队官宣发布视频生成实验模型“VideoWorld”,不同于Sora、DALL-E、Midjourney等主流多模态模型,VideoWorld在业界首次实现无需依赖语言模型,即可认知世界。 开源视频生成模型最新成果,可仅靠视觉认知世界。 视频生成成为通用知识学习方法,在现实世界充当“人工大脑”。作为一种通用视频生成实验模型,VideoWorld去掉语言模型,实现了统一执行理解和推理任务。同时基于一种潜在动态模型,可高效压缩视频帧间的变化信息,显著提升知识学习效率和效果。且目前该项目代码与模型已开源。在不依赖任何强化学习搜索或奖励函数机制前提下,VideoWorld达到了专业5段9x9围棋水平,并能够在多种环境中,执行机器人任务。团队认为,视频生成可以成为一种通用的知识学习方法,并在现实世界充当思考和行动的“人工大脑”。 模型仅靠“视觉”即可学习知识,“预测”未来,并“理解”因果关系。研究团队构建了两个实验环境:视频围棋对战和视频机器人模拟操控,它在保留丰富视觉信息的同时,压缩了关键决策和动作相关的视觉变化,实现了更有效的视频学习,且这种纯视觉模型可“预测”

加载中...

已阅读到文档的结尾了

下载文档

网友评论>