SuperCLUE：中文大模型基准测评2025年5月报告-2025中文大模型阶段性进展5月评估

发布者：wx****ba

2025-06-13

13 MB 39 页

人工智能（AI）

文件列表：

SuperCLUE：中文大模型基准测评2025年5月报告-2025中文大模型阶段性进展5月评估.pdf

根据报告内容，主要概括如下：

1、2025年上半年，国内外大模型技术快速发展，国内模型在多模态、推理等领域取得突破，与国外顶尖模型差距缩小。

2、5月SuperCLUE通用能力测评中，o4-mini(high)以70.51分位居第一，在代码生成、指令遵循等方面表现突出。国内模型Doubao-1.5-thinking-pro-20541在文本理解与创作上得分81.04分，领先其他模型。

3、国内推理模型表现亮眼，NebulaCoder-V6、Doubao-1.5-thinking-pro-20541等在数学推理、科学推理、代码生成上取得高分。但国内模型在指令遵循方面普遍低于海外模型。

4、小模型表现超出预期，Qwen3系列在10B级别小模型榜单中领先，展现极高性价比。

5、测评显示，国内大模型在文本理解与创作方面成熟度较高，在代码生成、智能体方面还需提升，在数学推理、科学推理等方面成熟度较低。

6、SuperCLUE测评结果与人类评估高度一致，具备较高的可信度。

加载中...

本文档仅能预览20页

开通智库会员享超值特权

专享文档

免费下载

免广告

更多特权