×
img

OpenAI 开源 SimpleQA 新基准论文:Measuring short-form factuality in large language models

发布者:wx****1b
2024-10-31
413 KB 14 页
人工智能(AI)
文件列表:
OpenAI 开源 SimpleQA 新基准论文:Measuring short-form factuality in large language models.pdf
下载文档
10 月 31 日消息,当地时间 30 日,OpenAI 宣布,为了衡量语言模型的准确性,将开源一个名为 SimpleQA 的新基准,可衡量语言模型回答简短的事实寻求(fact-seeking)问题的能力。AI 领域中的一个开放性难题是如何训练模型生成事实正确的回答。当前的语言模型有时会产生错误输出或未经证实的答案,这一问题被称为“幻觉”。能够生成更准确、更少幻觉的回答的语言模型更为可靠,可以用于更广泛的应用领域。OpenAI 表示,目标是使用 SimpleQA 创建一个具备以下特点的数据集:高正确性:问题的参考答案由两名独立的 AI 训练师验证,以确保评分的公正性。多样性:SimpleQA 涵盖广泛主题,从科学技术到电视节目与电子游戏应有尽有。前沿挑战性:与 TriviaQA(2017 年)或 NQ(2019 年)等早期基准相比,SimpleQA 更具挑战性,尤其针对如 GPT-4o 等前沿模型(例如,GPT-4o 的得分不足 40%)。高效用户体验:SimpleQA 问题与答案简洁明了,使操作快速高效,并可通过 OpenAI API 等进行快速评分。此外,包含 4326 道问题的

加载中...

已阅读到文档的结尾了

下载文档

网友评论>