×
img

量子位智库:2025年大模型架构创新研究报告

发布者:wx****f1
2025-06-05
13 MB 30 页
人工智能(AI)
文件列表:
量子位智库:2025年大模型架构创新研究报告.pdf
下载文档

根据报告的内容,本文主要概括如下:

1、Transformer架构自2017年提出以来,一直占据大模型架构的主流地位,但近年来其局限性逐渐显现,如计算复杂度高、内存需求大等问题。

2、为解决Transformer的局限性,业界主要探索两条路径:一是对Transformer架构进行改进,如稀疏注意力、线性注意力等;二是探索非Transformer架构,如新型RNN、CNN等。

3、Transformer架构改进主要聚焦在注意力机制和FFN层,非Transformer架构则以新型RNN为主流。两者各有优势,Transformer在性能上占优,非Transformer在效率上占优。

4、未来发展方向是高效Transformer和混合架构,以及非Transformer架构在端侧和小模型场景的应用。两条路径并非完全对立,而是存在交集。

5、新架构要走向工业落地,需跨越10B、20B、100B三个关键参数规模台阶。目前大部分新兴架构仍处于前两个阶段。

6、架构创新活跃玩家包括字节跳动、腾讯、阿里巴巴、DeepSeek等公


加载中...

本文档仅能预览20页

继续阅读请下载文档

网友评论>

开通智库会员享超值特权
专享文档
免费下载
免广告
更多特权
立即开通

发布机构

更多>>