×
img

中国移动:面向超万卡集群的新型智算技术白皮书(2024年)

wx****f5 459
2024-04-29
8 MB 32 页
电信 中国移动
文件列表:
中国移动:面向超万卡集群的新型智算技术白皮书(2024年).pdf
下载文档

自 ChatGPT 发布以来,科技界掀起了一场大模型的竞争热潮。数据成为新生产要素,算力成为新基础能源,大模型则成为新生产工具,各行各业从“+A”向“AI+”的转变已势不可挡。随着模型参数量从千亿迈向万亿,模型能力更加泛化,大模型对底层算力的诉求进一步升级,超万卡集群成为这一轮大模型基建军备竞赛的标配。

超万卡集群将有助于压缩大模型训练时间,实现模型能力的快速迭代,并及时对市场趋势作出应对。然而,如何在超万卡集群中实现高效的训练,并长期保持训练过程的稳定性,是将大模型训练扩展到数万张 GPU 卡上所要面临的双重挑战。超万卡集群运行过程中涉及到集群有效算力发挥、超大规模互联网络稳定性保障、故障的快速排查和修复等关键问题,目前都是业内关注的焦点。

中国移动全面拥抱“AI+”时代,提出超万卡集群的核心设计原则,并在计算、存储、网络、平台及机房配套等多个领域提出关键问题和解决方案。中国移动希望与行业一起应对超万卡集群所带来的前所未有的挑战,共同助推国内智算基础设施迈向新的台阶。



加载中...

本文档仅能预览20页

继续阅读请下载文档

网友评论>

开通智库会员享超值特权
专享文档
免费下载
免广告
更多特权
立即开通

发布机构

更多>>
VIP会员特权:
阅读时无遮挡广告;尊享专属客服;... 了解更多