SuperCLUE:中文大模型基准测评2025年9月报告.pdf |
下载文档 |
资源简介
根据《中文大模型基准测评2025年9月报告》,以下是全文关键点概括:
1、模型性能:海外模型在通用能力测评中占据榜单前六,其中GPT-5(high)以69.37分领先。国内模型DeepSeek-V3.2-Exp-Thinking和Doubao-Seed-1.6-thinking-250715分别以62.62分和60.96分并列国内第一。
2、性价比:国内模型API价格平均为3.88元/百万Tokens,远低于海外模型的20.46元/百万Tokens。
3、推理效率:海外推理模型平均每题耗时41.60秒,远低于国内模型的101.07秒。
4、开源模型:国内开源模型在榜单中表现优异,DeepSeek-V3.2-Exp-Thinking以62.62分夺得开源榜首。
5、任务表现:在智能体Agent任务上,国内外头部大模型整体表现相当,但在不同场景中存在差异。
6、代码生成:国内模型在代码生成任务上表现优异,但与海外顶尖模型仍有差距。
7、精确指令遵循:海外头部大模型在精确指令遵循任务上表现优于国内模型。
本文档仅能预览20页