文件列表:
天风证券:消费电子:DeepSeek-R1降本增效,看好ASIC赛道及应用端弹性释放.pdf |
下载文档 |
资源简介
>
1、近期Deepseek-R1以其较低训练成本和较强性能引起全球广泛关注,主要源于其V3基模多项降本提效的创新及R1模型增加的第二阶段强化学习训练对推理能力的大幅提升。预训练模型V3:关键创新表现于1)使用多头潜在注意力(MLA)机制,将每次查询所需的KV缓存减少了约93.3%,降低每次查询所需的硬件量,从而大幅降低了推理成本。2)利用Multi-TokenPrediction(MTP)新增注意力模块,预测接下来的多个token,其在训练过程中显著提高了模型性能,并且在推理时可以被移除,利用较低计算资源实现性能提升。3)作为专家混合模型,实现了门控网络(gatingnetwork),以平衡的方式将token路由到合适的专家,而不会影响模型性能。提高了训练效率,同时也降低了推理成本等。增加后训练的R1:则未使用监督微调而是强化学习微调的方法,展现出从零开始学习推理能力。
2、AI创新范式下后训练和推理环节的迭代或将为ASIC带来重要成长机遇:
1)ScalingLawVS新推理范式:2020年至2023年间,模型在海量互联网文本上训练,只需少量额外训练。这种以往范式依赖于预训练,在其他条
加载中...
已阅读到文档的结尾了