文件列表:
通过主动奖励学习实现证明反馈高效强化学习【英文版】.pdf |
下载文档 |
资源简介
>
英文标题:Provably Feedback-Efficient Reinforcement Learning via Active Reward Learning中文摘要:本文提供一种以人类在强化学习中的角色为基础的算法框架,旨在从理论角度解决设计有效的奖励函数的问题。我们提供了一种主动学习的 RL 算法,通过仅在某些状态动作对上询问少量关于任务奖励的问题,保证以高概率提供几乎最优的任务策略。英文摘要:An appropriate reward function is of paramount importance in specifying atask in reinforcement learning (RL). Yet, it is known to be extremelychallenging in practice to design a correct reward function for even simpletasks. Human-in-the-loop (HiL) RL allows humans to communicate complex goals t
加载中...
本文档仅能预览20页