字节跳动:2025年GPU Scale-up互联技术白皮书.pdf |
下载文档 |
资源简介
随着机器学习和人工智能等领域的持续发展,AI 模型对 GPU 集群数据处理能 力的需求也在不断提升。AI 应用需要 GPU 集群处理更大的数据集,训练更深 的神经网络和处理更多的并发任务,同时还要减少任务执行时间以及提高系统 整体效率。这需要 GPU 集群的 Scale-up 网络规模持续增大,扩展到机架级甚 至多机架级。 以太网技术应用在 GPU 集群互联架构具有诸多优势,例如:行业领先的高速 链路,大容量交换机,成熟的生态系统等。目前,多个行业组织正在开发用于 AI 集群的 Scale-up 网络技术,这些技术或是对以太网进行扩展,或是将以太 网部分组件用作构建模块。
本文档仅能预览20页