ChatGPT 中的毒性：分析个性化语言模型（英文版）

发布者：wx****9b

2023-04-22

1020 KB 36 页

人工智能（AI） ChatGPT

文件列表：

ChatGPT 中的毒性：分析个性化语言模型【英文版】.pdf

下载文档

资源简介

英文标题：Toxicity in ChatGPT: Analyzing Persona-assigned Language Models中文摘要：本研究系统评估了 ChatGPT 这个常用的基于对话的大型语言模型中的亵渎问题，发现为 ChatGPT 分配一个假想的人物角色（如拳击手穆罕默德・阿里）会显著增加生成结果的亵渎程度，其中涉及不正确的刻板印象、有害的对话和伤人的观点，这可能损害该假想角色的名誉并对无意中接触该系统的用户造成伤害，并且还存在特定实体（例如某些种族）比其他实体被定位更多的有关问题，这反映了模型内在的歧视性偏见。研究希望激发广泛的人工智能社区重新思考当前安全防护措施的功效，并开发出更好的技术，以实现强大、安全和值信赖任的 AI 系统。英文摘要：Large language models (LLMs) have shown incredible capabilities andtranscended the natural language processing (NLP) community, with adoptionthroughout many services

加载中...

本文档仅能预览20页

继续阅读请下载文档