文件列表:
五矿证券:机械设备行业:高端制造产业跟踪(1月):DeepSeek爆火预示着投资方向的何种变化?.pdf |
下载文档 |
资源简介
>
1.板块观点
DeepSeek系列为什么爆火?
DeepSeek实现行业领先模型能力,并且对代码开源。在AIME2024、Codeforces、GPQADiamond、Math-500、MMLU等多个测试中,DeepSeek-R1展现出媲美OpenAI-o1的模型能力。
DeepSeek的模型成本大幅下降。在成本方面,DeepSeek-R1的API服务输出定价为16元/1MTokens,相较于openAI-o1下降96%。对2024年12月发布的DeepSeek-V3,其API服务输出订单仅为8元(活动优惠期内为2元)/1MTokens。
DeepSeek系列有哪些关键的技术突破?
DeepSeek系列模型有2个核心的模型,DeepSeekV3和DeepSeekR1/R1-zero。
DeepSeekV3在传统专家混合模型(MoE)上改进,实现了超低的训练成本。传统MoE模型存在负载均衡问题,在低精度训练方面也容易受到异常值影响。DeepSeekV3通过动态调整专家负载,避免了传统方案的性能损失,并且通过FP8混合精度训练框架验证了FP8在超大规模模型上的可行性。通过优化算法、框架和硬
加载中...
本文档仅能预览20页