ai呀蔡蔡：2025年DeepSeek自学手册：从理论到实践

发布者：wx****f3

2025-02-18

24 MB 73 页

文件列表：

ai呀蔡蔡：2025年DeepSeek自学手册：从理论到实践.pdf

资源简介

DeepSeekV3是一个先进的MoE（Mixture-of-Experts）语言模型，专注于数学和编程领域，性能超越开源模型，成本相对较低。它采用多Token预测策略和Multi-Head Latent Attention（MLA）技术，提高数据处理效率和模型性能。DeepSeekMoE是其基础架构之一，通过创新和优化提升了模型性能和计算效率。DeepSeekV3在训练过程中使用了无监督学习和监督学习，包括基于规则和模型的奖励模型，以适应不同类型的任务。此外，DeepSeekV3在数据使用上进行了优化，提高了数学和编程内容的比例，并扩展了多语言覆盖范围。作者@ai呀蔡蔡提供了个人微信供交流，并强调了DeepSeekV3和R1的技术特点和应用场景。

加载中...

本文档仅能预览20页

继续阅读请下载文档