×
img

SuperCLUE:中文大模型基准测评2025年9月报告

发布者:wx****62
2025-10-17
17 MB 25 页
人工智能(AI)
文件列表:
SuperCLUE:中文大模型基准测评2025年9月报告.pdf
下载文档

根据《中文大模型基准测评2025年9月报告》,以下是全文关键点概括:

1、模型性能:海外模型在通用能力测评中占据榜单前六,其中GPT-5(high)以69.37分领先。国内模型DeepSeek-V3.2-Exp-Thinking和Doubao-Seed-1.6-thinking-250715分别以62.62分和60.96分并列国内第一。

2、性价比:国内模型API价格平均为3.88元/百万Tokens,远低于海外模型的20.46元/百万Tokens。

3、推理效率:海外推理模型平均每题耗时41.60秒,远低于国内模型的101.07秒。

4、开源模型:国内开源模型在榜单中表现优异,DeepSeek-V3.2-Exp-Thinking以62.62分夺得开源榜首。

5、任务表现:在智能体Agent任务上,国内外头部大模型整体表现相当,但在不同场景中存在差异。

6、代码生成:国内模型在代码生成任务上表现优异,但与海外顶尖模型仍有差距。

7、精确指令遵循:海外头部大模型在精确指令遵循任务上表现优于国内模型。


加载中...

本文档仅能预览20页

继续阅读请下载文档

网友评论>