文件列表:
训练有素的机器代理人的寻求权力行为可以被预测【英文版】.pdf |
下载文档 |
资源简介
>
英文标题:Power-seeking can be probable and predictive for trained agents中文摘要:研究表明,高级人工智能中的权力寻求行为是一种重要的风险来源,但目前对于这种现象的理论理解还相对有限。本文构建在现有的理论基础之上,研究了训练过程如何影响权力寻求激励,并证明了在一些简化的假设下,这种激励仍然可能存在于受过训练的智能体中,同时也能够预测新情况下的不良行为。英文摘要:Power-seeking behavior is a key source of risk from advanced AI, but ourtheoretical understanding of this phenomenon is relatively limited. Building onexisting theoretical results demonstrating power-seeking incentives for mostreward functions, we investigate how the training process af
加载中...
已阅读到文档的结尾了