中国联通(史树明):2025年DeepSeek洞察与大模型应用-人工智能技术发展与应用实践报告.pdf |
下载文档 |
资源简介
DeepSeek-V3(对标GPT-4o)于2024年12月 26日推出,因其显著的性能,用户迅速开始增长 ? ? ? ? ? ? • Deepseek-V3仍是基于Transformer架构的模型,是 一个强大的混合专家(MoE)模型,总共有 671B 个 参数,生成每个token时激活 37B 参数 • 训练成本比 Llama 405B 低一个量级 • DeepSeek-V3所采用的技术: • MLA多头潜在注意力机制(降低显存占用) • MTP多token预测(提升效果、提升推理速度) • FP8混合精度训练、DualPipe流水线、MoE负载 均衡(提升训练效率,降低训练成本)
本文档仅能预览20页