华为盘古团队:2025年Pangu Ultra MoE 模型架构与训练方法技术报告.pdf |
下载文档 |
资源简介
Pangu Ultra MoE 是一款在 Ascend NPU 平台上全流程开发的准万亿参数 MoE 大 模型,其性能上在开源评测集上达到一流水平。本文旨在全面介绍 Pangu Ultra MoE 面向超大规模参数与高稀疏比场景下所采用的关键技术方案,涵盖模型架 构、训练方法和高效推理系统等方面。 在模型架构方面,Pangu Ultra MoE 引入了 DSSN 稳定结构与 TinyInit 小初始化策 略,有效缓解训练初期的梯度波动,显著提升模型的稳定性与收敛效率。针对高 稀疏比 MoE 架构中的负载不均问题,我们设计了 EP-Group Auxiliary Loss,在专 家并行组粒度引入正则项,兼顾通信效率与正则强度,实现专家激活均衡并促 进特化。后训练阶段结合强化学习,进一步增强模型的数据利用效率与能力协 同,缓解能力增长不均衡。我们还探索了通过扩展 Multi-Token Prediction(MTP) 多头能力,支持多 token 投机推理,后续可用于 Pangu Ultra MoE 以提升模型生 成质量和推理速度。在推理系统方面,Pangu Ultra MoE 构建
已阅读到文档的结尾了