AGIEval: 人类中心基准评估体系用于评价基础模型（英文版）

发布者：wx****91

2023-04-22

443 KB 20 页

人工智能（AI）

文件列表：

AGIEval: 人类中心基准评估体系用于评价基础模型【英文版】.pdf

下载文档

资源简介

英文标题：AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models中文摘要：本文介绍了一个人类中心的基准测试 AGIEval，通过人类中心的标准化考试来对各种基础模型进行评估。在这个基准测试中，以 GPT-4，ChatGPT 和 Text-Davinci-003 为例，GPT-4 在 SAT，LSAT 和数学竞赛中的表现超过了人类的平均水平，取得了 95% 的数学测试准确率和 92.5% 的语文测试准确率。但在涉及复杂推理或特定领域知识的任务中，GPT-4 的表现较差。通过对模型能力（理解、知识、推理和计算）的全面分析，本文揭示了这些模型的优点和局限性，为增强它们的通用能力提供了有价值的见解。英文摘要：Evaluating the general abilities of foundation models to tackle human-leveltasks is a vital aspect of their development and application in the pursuit ofArt

加载中...

已阅读到文档的结尾了

下载文档