基于内在奖励的技能获取和组合方法

  • 打印
  • 收藏
收藏成功


打开文本图片集

收稿日期:2022-04-04;修回日期:2022-06-01  基金项目:贵州省科学技术基金资助项目(黔科合基础[2020]1Y275);贵州省科技计划项目(黔科合基础[2019]1130号)

作者简介:赵英(1995-),女,贵州遵义人,硕士,主要研究方向为强化学习(2642123704@qq.com);秦进(1978-),男,贵州黔西人,副教授,博士,主要研究方向为强化学习、智能计算.

摘 要:现有的内在奖励随着agent不断探索环境而逐渐消失,导致了agent无法利用内在奖励信号去指引agent寻找最优策略。(剩余16392字)

目录
monitor