文件列表:
中国银河:计算机行业:国产开源MoE模型DeepSeek-V2性能媲美GPT-4,大模型价格战拉开帷幕.pdf |
下载文档 |
资源简介
>
事件:5月7日,知名私募巨头幻方量化旗下的AI公司DeepSeek发布全新第二代MoE大模型DeepSeek-V2。
性能直逼GPT-4Turbo,综合能力位于大模型第一梯队。DeepSeek-V2是一个参数为2360亿的MoE模型,每个token仅激活210亿参数,支持128K的上下文长度。1)纵向对比:对比去年11月发布的DeepSeek67B性能取得显著提升,训练成本节省了42.5%,KV缓存减少了93.3%,最大生成吞吐量提高到了5.76倍。2)横向对比:上下文长度对标GPT-4Turbo(128K);中文综合能力(AlignBench)超越Llama3,在开源模型中表现最强,与文心4.0等闭源模型在评测中处于同一梯队,仅次于GPT-4Turbo;英文综合能力(MT-Bench)与最强的开源模型LLaMA3-70B处于同一梯队,超过MoE开源模型Mixtral8x22B。此外在知识、数学、推理、代码等方面也有出色的性能。
DeepSeek-V2训练计算量降低,推理能力表现高效。DeepSeek-V2训练数据集是由8.1Ttoken的高质量、多源预训练语料库组成,采用的Trans
加载中...
已阅读到文档的结尾了