注册帐号丨忘记密码?
1.点击网站首页右上角的“充值”按钮可以为您的帐号充值
2.可选择不同档位的充值金额,充值后按篇按本计费
3.充值成功后即可购买网站上的任意文章或杂志的电子版
4.购买后文章、杂志可在个人中心的订阅/零买找到
5.登陆后可阅读免费专区的精彩内容
打开文本图片集
摘 要:针对在自动驾驶复杂环境下多智能体强化学习算法决策缺乏人类表现出的智能性和奖励函数设计难度大的问题,提出基于BC-MAAC算法的高速入口匝道合并类人决策方案。将行为克隆思想与多智能体注意力动作—评价算法相融合,提出BC-MAAC算法,并且从Highway-env平台收集的多智能体专家数据中推导出专家策略,利用推导的专家策略与智能体当前策略的KL散度来塑造奖励函数,指导智能体训练过程。(剩余20110字)
登录龙源期刊网
购买文章
基于BC-MAAC算法的高速入口匝道合并类人决策
文章价格:6.00元
当前余额:100.00
阅读
您目前是文章会员,阅读数共:0篇
剩余阅读数:0篇
阅读有效期:0001-1-1 0:00:00