量子位智库:2025年大模型架构创新研究报告.pdf |
下载文档 |
资源简介
根据报告的内容,本文主要概括如下:
1、Transformer架构自2017年提出以来,一直占据大模型架构的主流地位,但近年来其局限性逐渐显现,如计算复杂度高、内存需求大等问题。
2、为解决Transformer的局限性,业界主要探索两条路径:一是对Transformer架构进行改进,如稀疏注意力、线性注意力等;二是探索非Transformer架构,如新型RNN、CNN等。
3、Transformer架构改进主要聚焦在注意力机制和FFN层,非Transformer架构则以新型RNN为主流。两者各有优势,Transformer在性能上占优,非Transformer在效率上占优。
4、未来发展方向是高效Transformer和混合架构,以及非Transformer架构在端侧和小模型场景的应用。两条路径并非完全对立,而是存在交集。
5、新架构要走向工业落地,需跨越10B、20B、100B三个关键参数规模台阶。目前大部分新兴架构仍处于前两个阶段。
6、架构创新活跃玩家包括字节跳动、腾讯、阿里巴巴、DeepSeek等公
本文档仅能预览20页