基于带惩罚的点概率距离策略优化算法 在展示广告实时竞标中的研究

  • 打印
  • 收藏
收藏成功


打开文本图片集

摘 要:  实时竞价(RTB)是在线展示广告中被广泛采用的广告投放模式,针对由于RTB拍卖环境的高度动态性导致最佳出价策略难以获得的问题,提出了一种基于强化学习(RL)的出价策略优化方法,即采用带惩罚的点概率距离策略优化(POP3D)算法来学习最佳出价策略。在基于POP3D的出价框架中,广告投标过程被建模为情节式的马尔可夫决策过程,每个情节被划分为固定数量的时间步,每个广告展示的出价由它的预估点击率大小和竞标因子共同决定。(剩余23257字)

目录
monitor
客服机器人