SuperCLUE：中文大模型基准测评2025年3月报告—2025中文大模型阶段性进展3月评估

发布者：wx****84

2025-03-20

21 MB 46 页

人工智能（AI）

文件列表：

SuperCLUE：中文大模型基准测评2025年3月报告—2025中文大模型阶段性进展3月评估.pdf

下载文档

资源简介

o3-mini(high) 在 SuperCLUE-3月评测中表现卓越，以 76.01 分和 84.51分稳居总榜和推理任务总榜第一，双榜均领先国内第一近5分，展现出强大的通用推理能力。 • 推理模型较基础模型优势明显，且国内较海外头部推理模型略有领先国内模型推理DeepSeek-R1在总榜上领先Claude 3.7 Sonnet近2.32分，QwQ-32B在推理任务榜单上领先Gemini-2.0-Flash-Thinking-Exp-01-21近7.65分。 • 大模型在推理速度和性价比的两级分化逐渐明显国内推理模型DeepSeek-R1和QwQ-32B虽然推理任务上表现出色，但推理时间也随之变长；在性价比方面，De e pSe e k、Qwe n系列模型具有极高的性价比优势，但 Claude 3.7 Sonnet由于高性能仍保持较高的API价格。 • 小参数模型表现超出预期多款开源小参数量模型展现出惊人潜力。尤其是DeepSeek-R1-Distill系列，其中7B和 14B版本在数学推理任务上分别取得了77.23分和79.46分的高分，超越了众多闭源大模型。

加载中...

本文档仅能预览20页

继续阅读请下载文档