华为:2025年华为昇腾服务器DeepSeek V3R1推理部署最佳实践技术报告.pdf |
下载文档 |
资源简介
本报告旨在探讨华为昇腾服务器上部署DeepSeek V3/R1 推理的最佳实践。为满足不同推理场景的需求,本文提供两种不同的部暑形态。第一种是基于华为CloudMatrix384超节点的大规模EP部署策略:为充分发挥CloudMatrix384的独特组网优势,使用其中的144 张卡作为一个 Decode 实例,以实现较低时延下的高并发,当前已达到了 50ms 时延约束下每卡输出1920 Tokens/s。第二种是基于Atlas 800IA2 服务器的小规模EP 部署策略:使用4节点 A2服务器作为一个Decode 实例,以实现较优吞吐下的灵活部署,当前达到了100ms 时延约束下每卡输出723~808 Tokens/s。
本文档仅能预览20页