安全约束下合作型多智能体TD3算法

  • 打印
  • 收藏
收藏成功


打开文本图片集

摘 要:合作马尔可夫博弈中,每个智能体不仅要实现共同的目标,还需要保证联合动作能够满足设定的约束条件。为此提出了安全约束下的合作型多智能体TD3算法MACTD3 (multi-agent constrainted twin delayed deep deterministic policy gradient)。(剩余10806字)

目录
monitor