×
img

华为:2025年华为昇腾服务器DeepSeek V3R1推理部署最佳实践技术报告

发布者:wx****fb
2025-05-21
4 MB 29 页
人工智能(AI) 华为
文件列表:
华为:2025年华为昇腾服务器DeepSeek V3R1推理部署最佳实践技术报告.pdf
下载文档

本报告旨在探讨华为昇腾服务器上部署DeepSeek V3/R1 推理的最佳实践。为满足不同推理场景的需求,本文提供两种不同的部暑形态。第一种是基于华为CloudMatrix384超节点的大规模EP部署策略:为充分发挥CloudMatrix384的独特组网优势,使用其中的144 张卡作为一个 Decode 实例,以实现较低时延下的高并发,当前已达到了 50ms 时延约束下每卡输出1920 Tokens/s。第二种是基于Atlas 800IA2 服务器的小规模EP 部署策略:使用4节点 A2服务器作为一个Decode 实例,以实现较优吞吐下的灵活部署,当前达到了100ms 时延约束下每卡输出723~808 Tokens/s。


加载中...

本文档仅能预览20页

继续阅读请下载文档

网友评论>

开通智库会员享超值特权
专享文档
免费下载
免广告
更多特权
立即开通

发布机构

更多>>