×
img

INDUSTRY REPORT:2025年多模态大模型和应用发展趋势及商业化进程分析报告

发布者:wx****f8
2025-07-14
16 MB 31 页
互联网
文件列表:
INDUSTRY REPORT:2025年多模态大模型和应用发展趋势及商业化进程分析报告.pdf
下载文档

市场对多模态模型基础架构上有认知差,原生多模态还没成为主流叙事大多数现有的 MLLM 采用模块化架构,即不同的模态部分为拼接的“pipeline”形式。而另一种“原生”MLLM,指不依赖预训练大语言模型或视觉编码器,直接在全部模态数据上从头开始同步训练的模型,训练时同时使用图文/语音等数据构建统一目标,无需先后分阶段。原生 MLLM 将视觉感知和多模态理解直接集成到单个 LLM 中,由于其端到端性和统一性原生 MLLM 可以更容易地使用现有的 LLM 推理库进行部署,并且比模块化 MLLM 显示出更高的效率。

在原生 MLLM 领域,全球较为领先的玩家主要是 OpenAl和 Google,后续 Meta 在 Llama4模型的更新中也开始采用原生多模态的架构,但是模态支持较少。由于 OpenAl 和 Google的原生 MLLM 旗舰模型为闭源,且 Llama4虽然为开源但是并没有公布技术报告或架构细节,因此并没有直接途径对其原生 MLLM 进行技术性分析。从效果上看,Gemini和40的原生多模态,展现出指令跟随好、时延短、一致性强的优势。


<


加载中...

本文档仅能预览20页

继续阅读请下载文档

网友评论>