×
img

SuperCLUE团队:中文大模型基准测评2025年上半年报告

发布者:wx****29
2025-08-05
24 MB 60 页
人工智能(AI)
文件列表:
SuperCLUE团队:中文大模型基准测评2025年上半年报告.pdf
下载文档

根据报告内容,关键点如下:

1、2025年上半年,国内外AI大模型技术快速发展,国内大模型在通用能力上与国外差距逐渐缩小。

2、7月SuperCLUE通用能力测评中,海外模型o3以73.78分位居榜首,国内模型Doubao-Seed-1.6-thinking-250715以68.04分位列第四。

3、国内模型在智能体Agent和幻觉控制任务上表现良好,但在推理任务上仍有差距。海外模型在推理任务上领先国内约10分。

4、国内开源模型表现亮眼,DeepSeek-R1-0528在开源榜单中位列第一,与闭源榜首模型差距仅7.63分。

5、国产小模型表现抢眼,Qwen3-8B(Thinking)在10B级别小模型榜单中位列第一。

6、国内外大模型在性价比上存在差异,国内头部模型性价比较高。

7、报告显示,SuperCLUE测评结果与人类评估具有高度一致性。



加载中...

本文档仅能预览20页

继续阅读请下载文档

网友评论>

开通智库会员享超值特权
专享文档
免费下载
免广告
更多特权
立即开通

发布机构

更多>>