SuperCLUE：中文大模型基准测评2025年9月报告

发布者：wx****62

2025-10-17

17 MB 25 页

人工智能（AI）

文件列表：

SuperCLUE：中文大模型基准测评2025年9月报告.pdf

根据《中文大模型基准测评2025年9月报告》，以下是全文关键点概括：

1、模型性能：海外模型在通用能力测评中占据榜单前六，其中GPT-5(high)以69.37分领先。国内模型DeepSeek-V3.2-Exp-Thinking和Doubao-Seed-1.6-thinking-250715分别以62.62分和60.96分并列国内第一。

2、性价比：国内模型API价格平均为3.88元/百万Tokens，远低于海外模型的20.46元/百万Tokens。

3、推理效率：海外推理模型平均每题耗时41.60秒，远低于国内模型的101.07秒。

4、开源模型：国内开源模型在榜单中表现优异，DeepSeek-V3.2-Exp-Thinking以62.62分夺得开源榜首。

5、任务表现：在智能体Agent任务上，国内外头部大模型整体表现相当，但在不同场景中存在差异。

6、代码生成：国内模型在代码生成任务上表现优异，但与海外顶尖模型仍有差距。

7、精确指令遵循：海外头部大模型在精确指令遵循任务上表现优于国内模型。

加载中...

本文档仅能预览20页

开通智库会员享超值特权

专享文档

免费下载

免广告

更多特权