×
img

SuperCLUE:中文大模型基准测评2025年3月报告—2025中文大模型阶段性进展3月评估

发布者:wx****84
2025-03-20
21 MB 46 页
人工智能(AI)
文件列表:
SuperCLUE:中文大模型基准测评2025年3月报告—2025中文大模型阶段性进展3月评估.pdf
下载文档

o3-mini(high) 在 SuperCLUE-3月评测中表现卓越,以 76.01 分和 84.51分稳居总榜和推 理任务总榜第一,双榜均领先国内第一近5分,展现出强大的通用推理能力。 • 推理模型较基础模型优势明显,且国内较海外头部推理模型略有领先 国内模型推理DeepSeek-R1在总榜上领先Claude 3.7 Sonnet近2.32分,QwQ-32B在推理 任务榜单上领先Gemini-2.0-Flash-Thinking-Exp-01-21近7.65分。 • 大模型在推理速度和性价比的两级分化逐渐明显 国内推理模型DeepSeek-R1和QwQ-32B虽然推理任务上表现出色,但推理时间也随 之变长;在性价比方面,De e pSe e k、Qwe n系列模型具有极高的性价比优势,但 Claude 3.7 Sonnet由于高性能仍保持较高的API价格。 • 小参数模型表现超出预期 多款开源小参数量模型展现出惊人潜力。尤其是DeepSeek-R1-Distill系列,其中7B和 14B版本在数学推理任务上分别取得了77.23分和79.46分的高分,超越了众多闭源大模型。


加载中...

本文档仅能预览20页

继续阅读请下载文档

网友评论>