SuperCLUE团队：中文大模型基准测评2025年上半年报告

发布者：wx****29

2025-08-05

24 MB 60 页

人工智能（AI）

文件列表：

SuperCLUE团队：中文大模型基准测评2025年上半年报告.pdf

根据报告内容，关键点如下：

1、2025年上半年，国内外AI大模型技术快速发展，国内大模型在通用能力上与国外差距逐渐缩小。

2、7月SuperCLUE通用能力测评中，海外模型o3以73.78分位居榜首，国内模型Doubao-Seed-1.6-thinking-250715以68.04分位列第四。

3、国内模型在智能体Agent和幻觉控制任务上表现良好，但在推理任务上仍有差距。海外模型在推理任务上领先国内约10分。

4、国内开源模型表现亮眼，DeepSeek-R1-0528在开源榜单中位列第一，与闭源榜首模型差距仅7.63分。

5、国产小模型表现抢眼，Qwen3-8B(Thinking)在10B级别小模型榜单中位列第一。

6、国内外大模型在性价比上存在差异，国内头部模型性价比较高。

7、报告显示，SuperCLUE测评结果与人类评估具有高度一致性。

加载中...

本文档仅能预览20页

开通智库会员享超值特权

专享文档

免费下载

免广告

更多特权