2025年多模态大模型和应用发展趋势及商业化进程分析报告

发布者：wx****f8

2025-07-14

16 MB 31 页

互联网

文件列表：

2025年多模态大模型和应用发展趋势及商业化进程分析报告.pdf

下载文档

资源简介

市场对多模态模型基础架构上有认知差，原生多模态还没成为主流叙事大多数现有的 MLLM 采用模块化架构，即不同的模态部分为拼接的“pipeline”形式。而另一种“原生”MLLM，指不依赖预训练大语言模型或视觉编码器，直接在全部模态数据上从头开始同步训练的模型,训练时同时使用图文/语音等数据构建统一目标,无需先后分阶段。原生 MLLM 将视觉感知和多模态理解直接集成到单个 LLM 中，由于其端到端性和统一性原生 MLLM 可以更容易地使用现有的 LLM 推理库进行部署，并且比模块化 MLLM 显示出更高的效率。在原生 MLLM 领域,全球较为领先的玩家主要是 OpenAl和 Google,后续 Meta 在 Llama4模型的更新中也开始采用原生多模态的架构，但是模态支持较少。由于 OpenAl 和 Google的原生 MLLM 旗舰模型为闭源，且 Llama4虽然为开源但是并没有公布技术报告或架构细节，因此并没有直接途径对其原生 MLLM 进行技术性分析。从效果上看，Gemini和40的原生多模态，展现出指令跟随好、时延短、一致性强的优势。

加载中...

本文档仅能预览20页

继续阅读请下载文档