文件列表:
AGIEval: 人类中心基准评估体系用于评价基础模型【英文版】.pdf |
下载文档 |
资源简介
>
英文标题:AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models中文摘要:本文介绍了一个人类中心的基准测试 AGIEval,通过人类中心的标准化考试来对各种基础模型进行评估。在这个基准测试中,以 GPT-4,ChatGPT 和 Text-Davinci-003 为例,GPT-4 在 SAT,LSAT 和数学竞赛中的表现超过了人类的平均水平,取得了 95% 的数学测试准确率和 92.5% 的语文测试准确率。但在涉及复杂推理或特定领域知识的任务中,GPT-4 的表现较差。通过对模型能力(理解、知识、推理和计算)的全面分析,本文揭示了这些模型的优点和局限性,为增强它们的通用能力提供了有价值的见解。英文摘要:Evaluating the general abilities of foundation models to tackle human-leveltasks is a vital aspect of their development and application in the pursuit ofArt
加载中...
已阅读到文档的结尾了