SuperCLUE:中文大模型基准测评2024年10月报告-2024年度中文大模型阶段性进展评估.pdf |
下载文档 |
资源简介
• OpenAI发布o1后,全球大模型竞争加剧 o1-preview的推出进一步拉大了与其他模型的差距。经测评,目前国内大模型正在持续接 近Claude 3.5 Sonnet和ChatGPT-4o-latest的能力,但与o1-preview在中文难任务(Hard 任务)上相差约为14%,在中文通用能力上相差约8%。 • 国内大模型第一梯队竞争激烈,持续迭代表现不俗 国内开源模型Qwen2.5-72B-Instruct、DeepSeek V2.5领跑全球开源模型,最新发布的 TeleChat2-35B同样表现出色,超过了国内外众多开源模型;国内闭源模型GLM-4-Plus、 SenseChat 5.5、AndesGPT-2.0表现优异,与ChatGPT-4o-latest相距2分以内。 • 国内外大模型在不同任务上表现各有优势 国内外模型在不同维度任务表现各有特色。o1-preview在Hard任务中表现卓越,有较大 领先性,国内大模型则更擅长理科和文科任务。 • 端侧小模型表现惊艳 国内端侧小模型进展迅速,部分小尺寸模型表现要好于上一代的稍大尺寸模型,如 Qwen2.5-1.5
本文档仅能预览20页