基于相关熵诱导度量的近端策略优化算法

  • 打印
  • 收藏
收藏成功


打开文本图片集

摘要: 在深度强化学习算法中, 近端策略优化算法PPO(Proximal Policy Optimization)在许多实验任务中表现优异, 但具有自适应KL(Kullback-Leibler)散度的KL-PPO 由于其不对称性而影响了KL-PPO 策略更新效率,为此, 提出了一种基于相关熵诱导度量的近端策略优化算法CIM-PPO (Correntropy Induced Metric-PPO)。(剩余6395字)

monitor