×
img

上海证券:互联网传媒行业周报-周观点:LeCun谢赛宁首发全新视觉多模态模型,Unique3D开源图转3D模型

发布者:wx****0f
2024-07-01
418 KB 3 页
游戏 上海证券
文件列表:
上海证券:互联网传媒行业周报-周观点:LeCun谢赛宁首发全新视觉多模态模型,Unique3D开源图转3D模型.pdf
下载文档
主要观点 LeCun和谢赛宁共同提出一种全新的SOTAMLLM——Cambrian-1,开创了以视觉为中心的方法来设计多模态模型,同时全面开源了模型权重、代码、数据集,以及详细的指令微调和评估方法。在寒武纪大爆发中,视觉的出现对于早期动物至关重要,捕食、避险、引导进化,穿越时间,组成了多彩的世界。对应到大模型的学习,一方面虽然更大的规模可以增强多模态的能力,但视觉方面的研究和设计似乎没有跟上;另一方面过度依赖语言,则可能会成为多模态学习研究的瓶颈。研究人员基于之前的设计框架,使用了三种参数大小的LLM(LLaMA-3-Instruct-8B、Vicuna-1.5-13B、Hermes-2-Yi-34B)进行了训练,视觉部分结合了四种模型(SigLIP、CLIP、DINOv2和OpenCLIPConvNeXt),训练过程中采用了250万条适配器数据,以及700万条指令微调数据,训练一个高性能的Cambrian模型。 Unique3D是3D生成圈的一个开源模型,可将一张图30秒高质量转3D,基于该模型打造的产品还即将上线一张图生成3D全景图,一键将视频人物替换为生成角色等功能。Unique

加载中...

已阅读到文档的结尾了

下载文档

网友评论>