文件列表:
国联证券:通信行业专题研究:华为领航,AI和国产算力产业持续蓬勃发展.pdf |
下载文档 |
资源简介
>
大模型参数持续增长,多DC协同训练将成主流
华为预测,模型ScalingLaw仍将持续,顶级通用大模型参数规模将达到每2年8倍的增长速度,到2030年将出现百万亿—千万亿的通用大模型。高能耗的集群将迫使模型训练从单计算中心训练,走向多DC协同训练,远距离异步协同训练将成为主流。千万亿通用大模型的落地,需突破超大规模复杂集群通信提高训练推理效率,卡间互联带宽将从当前主流的200-900GB/s提升到10TB/s以上。
跨DC协同训练给网络带来挑战
AI训练步入十万卡时代,跨DC协同训练对网络带来挑战。(1)AI训练对网络丢包的敏感度高。(2)大象流会导致网络中的传统基于五元组的负载分担方法失效,链路负载不均衡,降低网络使用率。(3)在万卡集群中,极端情况下流量瞬时并发可达上千Tbps。目前,十公里的跨机楼并行训练算效损失可低于5%,具备可行性,未来百公里级、千公里级的跨地域并行训练欲将损失控制在10%以下,除需建设长距离超宽DCI网络之外,还涉及模型切分策略、集合通信算法、无损网络技术等。
OXC光交换和CPO技术有望得到应用
芯片出光、OXC光交换技术的应用有望实现全光DCN,结合新型
加载中...
已阅读到文档的结尾了