基于内在奖励的技能获取和组合方法

打开文本图片集
收稿日期:2022-04-04;修回日期:2022-06-01 基金项目:贵州省科学技术基金资助项目(黔科合基础[2020]1Y275);贵州省科技计划项目(黔科合基础[2019]1130号)
作者简介:赵英(1995-),女,贵州遵义人,硕士,主要研究方向为强化学习(2642123704@qq.com);秦进(1978-),男,贵州黔西人,副教授,博士,主要研究方向为强化学习、智能计算.
摘 要:现有的内在奖励随着agent不断探索环境而逐渐消失,导致了agent无法利用内在奖励信号去指引agent寻找最优策略。(剩余16392字)