中国联通（史树明）：2025年DeepSeek洞察与大模型应用-人工智能技术发展与应用实践报告

发布者：wx****6f

2025-03-18

6 MB 37 页

人工智能（AI）中国联通

文件列表：

中国联通（史树明）：2025年DeepSeek洞察与大模型应用-人工智能技术发展与应用实践报告.pdf

下载文档

资源简介

DeepSeek-V3（对标GPT-4o）于2024年12月 26日推出，因其显著的性能，用户迅速开始增长 ? ? ? ? ? ? • Deepseek-V3仍是基于Transformer架构的模型，是一个强大的混合专家（MoE）模型，总共有 671B 个参数，生成每个token时激活 37B 参数 • 训练成本比 Llama 405B 低一个量级 • DeepSeek-V3所采用的技术： • MLA多头潜在注意力机制（降低显存占用） • MTP多token预测（提升效果、提升推理速度） • FP8混合精度训练、DualPipe流水线、MoE负载均衡（提升训练效率，降低训练成本）

加载中...

本文档仅能预览20页

继续阅读请下载文档