中国银河：计算机行业：国产开源MoE模型DeepSeek-V2性能媲美GPT-4，大模型价格战拉开帷幕

发布者：wx****e1

2024-05-13

258 KB 2 页

互联网中国银河

文件列表：

中国银河：计算机行业：国产开源MoE模型DeepSeek-V2性能媲美GPT-4，大模型价格战拉开帷幕.pdf

下载文档

资源简介

事件：5月7日，知名私募巨头幻方量化旗下的AI公司DeepSeek发布全新第二代MoE大模型DeepSeek-V2。性能直逼GPT-4Turbo，综合能力位于大模型第一梯队。DeepSeek-V2是一个参数为2360亿的MoE模型，每个token仅激活210亿参数，支持128K的上下文长度。1）纵向对比：对比去年11月发布的DeepSeek67B性能取得显著提升，训练成本节省了42.5%，KV缓存减少了93.3%，最大生成吞吐量提高到了5.76倍。2）横向对比：上下文长度对标GPT-4Turbo（128K）；中文综合能力（AlignBench）超越Llama3，在开源模型中表现最强，与文心4.0等闭源模型在评测中处于同一梯队，仅次于GPT-4Turbo；英文综合能力（MT-Bench）与最强的开源模型LLaMA3-70B处于同一梯队，超过MoE开源模型Mixtral8x22B。此外在知识、数学、推理、代码等方面也有出色的性能。 DeepSeek-V2训练计算量降低，推理能力表现高效。DeepSeek-V2训练数据集是由8.1Ttoken的高质量、多源预训练语料库组成，采用的Trans

加载中...

已阅读到文档的结尾了

下载文档