基于BC-MAAC算法的高速入口匝道合并类人决策

  • 打印
  • 收藏
收藏成功


打开文本图片集

摘 要:针对在自动驾驶复杂环境下多智能体强化学习算法决策缺乏人类表现出的智能性和奖励函数设计难度大的问题,提出基于BC-MAAC算法的高速入口匝道合并类人决策方案。将行为克隆思想与多智能体注意力动作—评价算法相融合,提出BC-MAAC算法,并且从Highway-env平台收集的多智能体专家数据中推导出专家策略,利用推导的专家策略与智能体当前策略的KL散度来塑造奖励函数,指导智能体训练过程。(剩余20110字)

目录
monitor