INDUSTRY REPORT:2025年超节点在AI算力网络中的发展趋势及其对产业链的影响分析报告.pdf |
下载文档 |
资源简介
大模型参数增长和模型架构变化的背景下,Scale up 和 Scale out 是算力系统扩容的 两个重要维度,可以帮助理解 AI 计算与网络硬件的发展趋势。 以货轮为比喻,当总运力需求扩张时,Scale-up 是建造更大的货轮,而 Scale-out 则 是增加货轮的数量。Scale-up 追求硬件的紧密耦合;Scale-out 追求实现弹性扩展,支撑 松散任务(如数据并行)。二者在协议栈、硬件、容错机制上存在本质差异,通信效率不 同。 以 A100 和 H100 分别组成的 DGX 256 Pod 为例,两者均由 32 台 8 卡服务器跨机柜 组成。DGX A100 实际为服务器通过 Infiniband 交换网络 Scale-out 组成;而 DGX H100 通过第二层 NVSwitch 组网,实现 256 个 H100 全互联,为 Scale-up,形成 1 个超大节点, 在通信性能方面具备优势。
本文档仅能预览20页