基于不确定性的贝叶斯策略重用方法

  • 打印
  • 收藏
收藏成功


打开文本图片集

摘 要:针对多智能体对抗中因对手策略变化导致的非平稳性问题,在对手动作不可获取的限制下,提出一种基于不确定性的贝叶斯策略重用算法。在离线阶段,在策略学习的同时,通过自编码器建模智能体轨迹与对手动作之间的关系表征以构建对手模型。在在线阶段,依据对手模型和有限交互信息,估计对手策略类型的不确定性,并基于此选择最优应对策略并重用。(剩余17764字)

目录
monitor