SuperCLUE:中文大模型基准测评2025年5月报告-2025中文大模型阶段性进展5月评估.pdf |
下载文档 |
资源简介
根据报告内容,主要概括如下:
1、2025年上半年,国内外大模型技术快速发展,国内模型在多模态、推理等领域取得突破,与国外顶尖模型差距缩小。
2、5月SuperCLUE通用能力测评中,o4-mini(high)以70.51分位居第一,在代码生成、指令遵循等方面表现突出。国内模型Doubao-1.5-thinking-pro-20541在文本理解与创作上得分81.04分,领先其他模型。
3、国内推理模型表现亮眼,NebulaCoder-V6、Doubao-1.5-thinking-pro-20541等在数学推理、科学推理、代码生成上取得高分。但国内模型在指令遵循方面普遍低于海外模型。
4、小模型表现超出预期,Qwen3系列在10B级别小模型榜单中领先,展现极高性价比。
5、测评显示,国内大模型在文本理解与创作方面成熟度较高,在代码生成、智能体方面还需提升,在数学推理、科学推理等方面成熟度较低。
6、SuperCLUE测评结果与人类评估高度一致,具备较高的可信度。
本文档仅能预览20页