SuperCLUE团队:中文大模型基准测评2025年上半年报告.pdf |
下载文档 |
资源简介
根据报告内容,关键点如下:
1、2025年上半年,国内外AI大模型技术快速发展,国内大模型在通用能力上与国外差距逐渐缩小。
2、7月SuperCLUE通用能力测评中,海外模型o3以73.78分位居榜首,国内模型Doubao-Seed-1.6-thinking-250715以68.04分位列第四。
3、国内模型在智能体Agent和幻觉控制任务上表现良好,但在推理任务上仍有差距。海外模型在推理任务上领先国内约10分。
4、国内开源模型表现亮眼,DeepSeek-R1-0528在开源榜单中位列第一,与闭源榜首模型差距仅7.63分。
5、国产小模型表现抢眼,Qwen3-8B(Thinking)在10B级别小模型榜单中位列第一。
6、国内外大模型在性价比上存在差异,国内头部模型性价比较高。
7、报告显示,SuperCLUE测评结果与人类评估具有高度一致性。
本文档仅能预览20页