文件列表:
重新思考基于群体协助的离线策略强化学习【英文版】.pdf |
下载文档 |
资源简介
>
英文标题:Rethinking Population-assisted Off-policy Reinforcement Learning中文摘要:本文深入研究了结合 off-policy reinforcement learning 和 population-based optimization 两种算法的训练方法,在机器人运动任务中的实验结果表明 population data 的使用会影响训练稳定性并降低性能,作者进一步提出了双重回放缓冲设计来解决此问题。英文摘要:While off-policy reinforcement learning (RL) algorithms are sample efficientdue to gradient-based updates and data reuse in the replay buffer, theystruggle with convergence to local optima due to limited exploration. On theother hand, population-based algorithms
加载中...
已阅读到文档的结尾了