文件列表:
东方财富证券:信息技术行业动态点评:DeepSeek发布第二代MoE架构模型,API调用成本降低.pdf |
下载文档 |
资源简介
>
【事项】
近日,DeepSeek团队开源了第二代MoE模型DeepSeek-V2,总体实现了更多参数,能力更强,并在成本上有大幅降低。
在目前大模型主流榜单中,DeepSeek-V2均表现出色:在中文综合能力开源模型中亮眼,与GPT-4-Turbo,文心4.0等闭源模型在评测中处于同一梯队;英文综合能力与目前最强的开源模型LLaMA3-70B同处第一梯队,超过MoE开源模型Mixtral8x22B;而在知识、数学、推理、编程等榜单结果DeepSeek也位居前列。在上下文层面,DeepSeek目前支持128K上下文窗口。
根据DeepSeek自己估计,DeepSeek-V2以236B总参数、21B激活,大致达到70B~110BDense的模型能力,同时消耗的显存(KVCache)是同级别Dense模型的1/5~1/100,每token成本大幅降低。实际部署在8卡H800机器上,输入吞吐量超过每秒10万tokens,输出超过每秒5万tokens。
【评论】
整体表现出色。从表中可看到,DeepSeek在编程、数学解题等领域在国内大模型中处于领先水平;在列举的开源模型中,DeepSeek的各
加载中...
已阅读到文档的结尾了