基于逆强化学习与行为树的机械臂复杂操作技能学习方法

  • 打印
  • 收藏
收藏成功


打开文本图片集

摘  要: 现有分层强化学习方法不仅在学习过程中存在样本效率低、奖励稀疏以及学习时间过长等问题,而且大多基于仿真环境,导致学习策略在机器人真实操作环境中部署困难。针对上述问题,提出一种基于逆强化学习与行为树的机械臂复杂操作技能学习方法。在对复杂操作任务进行分割的基础上,首先,根据专家演示轨迹确定分割后每个子任务的强化学习参数及其对应的专家策略;其次,根据子任务专家策略并使用生成对抗模仿学习算法进行预训练,得到每个子任务的奖励函数;再次,运用每个子任务的奖励函数并基于SAC算法做进一步训练,获取到每个子任务的最优策略;最后,将子任务最优策略从仿真环境部署到真实环境,并将部署后的每个子任务作为叶节点构建行为树,实现机械臂复杂任务规划。(剩余11916字)

monitor