基于强化学习的双人博弈差分隐私保护研究

  • 打印
  • 收藏
收藏成功


打开文本图片集

摘要:针对双人博弈问题,在学习Q-learning算法的基础上,利用神经网络参数逼近的方式更新状态值函数,选取自适应梯度优化算法进行参数更新,并通过纳什均衡思想调节两个智能体的行为。同时为提高模型的保护效果,对结果添加差分隐私保护,保证智能体博弈过程中数据的安全性。最后,实验结果验证了算法的可用性,其能够训练两个智能体在多回合之后稳定抵达各自目标点。(剩余11003字)

monitor