注册帐号丨忘记密码?
1.点击网站首页右上角的“充值”按钮可以为您的帐号充值
2.可选择不同档位的充值金额,充值后按篇按本计费
3.充值成功后即可购买网站上的任意文章或杂志的电子版
4.购买后文章、杂志可在个人中心的订阅/零买找到
5.登陆后可阅读免费专区的精彩内容
打开文本图片集
摘 要:提升多智能体训练效果一直是强化学习领域中的重点。以多智能体双延迟深度确定性策略梯度(MATD3)算法为基础,引入参数共享机制,进而提升训练效率。同时为缓解真实奖励与辅助奖励不一致的问题,借鉴课程学习思想,提出辅助奖励衰减因子,以保证训练初期的策略探索积极性与训练末期的奖励一致性。将所提出的改进式MATD3算法应用于战车博弈对抗,从而实现战车的智能决策,应用结果表明,智能战车的奖励曲线收敛稳定,且效果良好。(剩余15939字)
登录龙源期刊网
购买文章
改进式MATD3算法及其对抗应用
文章价格:6.00元
当前余额:100.00
阅读
您目前是文章会员,阅读数共:0篇
剩余阅读数:0篇
阅读有效期:0001/1/1 0:00:00