文件列表:
东兴证券:人工智能动态跟踪:计算机行业:DeepSeek提振国产大模型信心,有望促进AI行业发展.pdf |
下载文档 |
资源简介
>
事件:
(1)2024年12月底,DeepSeek-V3正式发布,DeepSeek-V3为自研MoE模型,671B参数,激活37B,在14.8Ttoken上进行了预训练;
(2)2025年1月底,DeepSeek-R1发布,性能对标OpenAIo1正式版。
点评:
算法+工程创新提升DeepSeek-V3模型效率,后训练阶段使用强化学习技术增强R1推理能力。(1)模型表现优异,DeepSeek-V3多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲;DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩OpenAIo1正式版;(2)推理效率提升,通过算法和工程上的创新,DeepSeek-V3的生成吐字速度从20TPS提高至60TPS,相比V2.5模型实现了3倍的提升,使用体验更加流畅;(3)成本大幅降低,DeepSeek-V3和R1在web端和APP端可免费试用,
加载中...
已阅读到文档的结尾了