×
img

信达证券:电子行业专题研究(普通):DeepseekR1是AGI的里程碑,中长期利好算力硬件

发布者:wx****99
2025-02-04
2 MB 17 页
半导体 信达证券
文件列表:
信达证券:电子行业专题研究(普通):DeepseekR1是AGI的里程碑,中长期利好算力硬件.pdf
下载文档
本期内容提要: DeepSeek树立里程碑,挖掘算法创新的价值潜力。DeepseekV3仍是基于Transformer架构的模型,是一个强大的专家混合(MoE)语言模型,总共有671B个参数,每个令牌激活了37B参数。DeepSeek-V3主要贡献包括:架构层面创新的负载均衡策略和训练目标,预训练层面大幅提高训练效率,后训练层面DeepSeek-R1的知识提炼等。DeepSeek团队仅以2.664MH800GPU小时的经济成本,在14.8Ttokens上完成了DeepSeekV3的预训练。DeepseekR1是基于DeepseekV3的架构上的集大成之作,性能对标OpenAI-o1。DeepSeek-R1-Zero是一种通过大规模强化学习(RL)训练的模型,没有监督微调(SFT)作为初步步骤,展示了卓越的推理能力。通过强化学习,DeepSeek-R1-Zero自然而然地出现了许多强大而有趣的推理行为。其中,DeepSeek-R1-Zero展示了自我验证、反射和生成长CoT等功能,这标志着研究界的重要里程碑。值得注意的是,这是第一个验证的开放研究,可以纯粹通过RL来激励的LLMs推理能力

加载中...

已阅读到文档的结尾了

下载文档

网友评论>