目录 正文页 首页

异策略模仿-强化学习序列推荐算法

计算机应用研究 刘珈麟 贺泽宇 李俊

摘 要:最近,强化学习序列推荐系统受到研究者们的广泛关注,这得益于它能更好地联合建模用户感兴趣的内动态和外倾向。然而,现有方法面临同策略评估方法数据利用率低,导致模型依赖大量的专家标注数据,以及启发式价值激励函数设计依赖反复人工调试两个主要挑战。因此,提出了一种新颖的异策略模仿-强化学习的序列推荐算法COG4Rec,以提高数据利用效率和实现可学习的价值函数。(剩余19051字)

试读已结束,购买后继续阅读 阅读全文6.00

文章会员,69元300篇文章超值畅读!立即开通

  • 购买文章
  • 关闭
确定购买:
异策略模仿-强化学习序列推荐算法
文章价格6.00
  • 取消
  • 余额不足
  • 关闭
您的当前余额不足,是否去充值?
当前余额为:0.00
  • 取消
购买文章:

异策略模仿-强化学习序列推荐算法

文章价格:6.00 元
您的余额:21.00元,余额支付》
阅读文章:

异策略模仿-强化学习序列推荐算法

您目前是文章会员,阅读数共:0

剩余阅读数:0

阅读有效期:0001-1-1 0:00:00

确定是否阅读此文章?

确定
monitor