SuperCLUE：中文大模型基准测评2024年10月报告-2024年度中文大模型阶段性进展评估

发布者：wx****54

2024-11-14

27 MB 80 页

人工智能（AI）

文件列表：

SuperCLUE：中文大模型基准测评2024年10月报告-2024年度中文大模型阶段性进展评估.pdf

下载文档

资源简介

• OpenAI发布o1后，全球大模型竞争加剧 o1-preview的推出进一步拉大了与其他模型的差距。经测评，目前国内大模型正在持续接近Claude 3.5 Sonnet和ChatGPT-4o-latest的能力，但与o1-preview在中文难任务（Hard 任务）上相差约为14%，在中文通用能力上相差约8%。 • 国内大模型第一梯队竞争激烈，持续迭代表现不俗国内开源模型Qwen2.5-72B-Instruct、DeepSeek V2.5领跑全球开源模型，最新发布的 TeleChat2-35B同样表现出色，超过了国内外众多开源模型；国内闭源模型GLM-4-Plus、 SenseChat 5.5、AndesGPT-2.0表现优异，与ChatGPT-4o-latest相距2分以内。 • 国内外大模型在不同任务上表现各有优势国内外模型在不同维度任务表现各有特色。o1-preview在Hard任务中表现卓越，有较大领先性，国内大模型则更擅长理科和文科任务。 • 端侧小模型表现惊艳国内端侧小模型进展迅速，部分小尺寸模型表现要好于上一代的稍大尺寸模型，如 Qwen2.5-1.5

加载中...

本文档仅能预览20页

继续阅读请下载文档