基于离线强化学习的研究综述

  • 打印
  • 收藏
收藏成功


打开文本图片集

摘 要:离线强化学习作为一种新兴范式,凭借其无需与环境交互即可利用大量离线数据进行策略学习的特性,展现出了很高的应用潜力和价值,特别是在医疗、自动驾驶等高风险领域中具有显著优势。从离线强化学习的基本概念、核心问题、主要方法依次展开,重点介绍多种缓解主要问题的方法:分布偏移的策略,包括约束目标策略与行为策略对齐、价值函数约束、模型不确定性量化以及基于模型的离线强化学习方法。(剩余729字)

monitor