DataFun:2025年Ray+技术深度解析与大规模实践报告.pdf |
下载文档 |
资源简介
目前我们对于 Ray 的使用场景主要是 Ray Serve,在 Astra 平台之前,我们团 队是一个纯粹的后台开发团队。因此在我们在实际工作中,会更加深入的思考 AI 算法服务与传统微服务之间的区别。 首先,关于应用规模,传统的微服务一般最多只有几千个节点、十来万核。然而, 在 AI 算法这种计算密集型的任务上,我们的 AI 算法服务往往需要数十万节点, 其计算资源需求可达数百万核。这种超级应用对我们的模块管理系统以及 K8S 集群提出了极高的要求,要支撑如此大规模的应用部署是非常困难的。 其次,随着资源数量和资源种类的增加,部署复杂度快速升高。AI 算法服务对 GPU 资源有特殊需求,市场上存在多种类型的 GPU,例如 NVIDIA、紫霄、昇 腾等品牌。这些不同型号的 GPU 需要特定的适配工作
本文档仅能预览20页