×
img

ai呀蔡蔡:2025年DeepSeek自学手册:从理论到实践

发布者:wx****f3
2025-02-18
24 MB 73 页
文件列表:
ai呀蔡蔡:2025年DeepSeek自学手册:从理论到实践.pdf
下载文档

DeepSeekV3是一个先进的MoE(Mixture-of-Experts)语言模型,专注于数学和编程领域,性能超越开源模型,成本相对较低。它采用多Token预测策略和Multi-Head Latent Attention(MLA)技术,提高数据处理效率和模型性能。DeepSeekMoE是其基础架构之一,通过创新和优化提升了模型性能和计算效率。DeepSeekV3在训练过程中使用了无监督学习和监督学习,包括基于规则和模型的奖励模型,以适应不同类型的任务。此外,DeepSeekV3在数据使用上进行了优化,提高了数学和编程内容的比例,并扩展了多语言覆盖范围。作者@ai呀蔡蔡提供了个人微信供交流,并强调了DeepSeekV3和R1的技术特点和应用场景。


加载中...

本文档仅能预览20页

继续阅读请下载文档

网友评论>

开通智库会员享超值特权
专享文档
免费下载
免广告
更多特权
立即开通

发布机构

更多>>