量子位智库：2025年大模型架构创新研究报告

发布者：wx****f1

2025-06-05

13 MB 30 页

人工智能（AI）

文件列表：

量子位智库：2025年大模型架构创新研究报告.pdf

根据报告的内容，本文主要概括如下：

1、Transformer架构自2017年提出以来，一直占据大模型架构的主流地位，但近年来其局限性逐渐显现，如计算复杂度高、内存需求大等问题。

2、为解决Transformer的局限性，业界主要探索两条路径：一是对Transformer架构进行改进，如稀疏注意力、线性注意力等；二是探索非Transformer架构，如新型RNN、CNN等。

3、Transformer架构改进主要聚焦在注意力机制和FFN层，非Transformer架构则以新型RNN为主流。两者各有优势，Transformer在性能上占优，非Transformer在效率上占优。

4、未来发展方向是高效Transformer和混合架构，以及非Transformer架构在端侧和小模型场景的应用。两条路径并非完全对立，而是存在交集。

5、新架构要走向工业落地，需跨越10B、20B、100B三个关键参数规模台阶。目前大部分新兴架构仍处于前两个阶段。

6、架构创新活跃玩家包括字节跳动、腾讯、阿里巴巴、DeepSeek等公

加载中...

本文档仅能预览20页

开通智库会员享超值特权

专享文档

免费下载

免广告

更多特权