改进式MATD3算法及其对抗应用

打印
收藏

收藏成功

微博 QQ空间微信

打开文本图片集

摘要：提升多智能体训练效果一直是强化学习领域中的重点。以多智能体双延迟深度确定性策略梯度（MATD3）算法为基础，引入参数共享机制，进而提升训练效率。同时为缓解真实奖励与辅助奖励不一致的问题，借鉴课程学习思想，提出辅助奖励衰减因子，以保证训练初期的策略探索积极性与训练末期的奖励一致性。将所提出的改进式MATD3算法应用于战车博弈对抗，从而实现战车的智能决策，应用结果表明，智能战车的奖励曲线收敛稳定，且效果良好。（剩余15939字）

试读结束

购买全文6.00元下一篇基于Pignistic概率距离的证据源组合新方法

指挥控制与仿真

2024年05期

¥18.00/本