华为：2025年华为昇腾服务器DeepSeek V3R1推理部署最佳实践技术报告

发布者：wx****fb

2025-05-21

4 MB 29 页

人工智能（AI）华为

文件列表：

华为：2025年华为昇腾服务器DeepSeek V3R1推理部署最佳实践技术报告.pdf

下载文档

资源简介

本报告旨在探讨华为昇腾服务器上部署DeepSeek V3/R1 推理的最佳实践。为满足不同推理场景的需求，本文提供两种不同的部暑形态。第一种是基于华为CloudMatrix384超节点的大规模EP部署策略:为充分发挥CloudMatrix384的独特组网优势，使用其中的144 张卡作为一个 Decode 实例，以实现较低时延下的高并发，当前已达到了 50ms 时延约束下每卡输出1920 Tokens/s。第二种是基于Atlas 800IA2 服务器的小规模EP 部署策略:使用4节点 A2服务器作为一个Decode 实例，以实现较优吞吐下的灵活部署，当前达到了100ms 时延约束下每卡输出723~808 Tokens/s。

加载中...

本文档仅能预览20页

继续阅读请下载文档