文件列表:
华龙证券:AI产业系列跟踪专题研究报告:DeepSeek重塑AI产业格局,助力AI端侧落地.pdf |
下载文档 |
资源简介
>
DeepSeek-V3和R1模型凭借卓越的性能和创新的技术,迅速在全球AI领域崭露头角。2024年12月26日,公司发布全新系列模型DeepSeek-V3并同步开源,DeepSeek-V3为自研MoE模型,多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。2025年1月20日,DeepSeek发布了推理模型DeepSeek-R1,该模型在后训练阶段大规模使用了强化学习技术,在仅仅使用极少标注数据的情况下,极大提升了模型推理能力,在数据、代码、自然语言推理等任务上,性能比肩OpenAIo1正式版。
DeepSeek-V3技术创新:架构优化与训练效率提升。DeepSeek-V3在继承DeepSeek-V2高效架构的基础上,通过创新的负载均衡策略和多标记预测(MTP)目标,进一步优化了模型性能。该模型率先采用无需辅助损失的负载均衡策略,有效降低了因负载均衡导致的性能下降。同时,MTP目标不仅提升了模型性能,还支持推理加速中的推测性解码。在预训练阶段,DeepSeek-
加载中...
已阅读到文档的结尾了