本体指导下的安全强化学习最优化策略

  • 打印
  • 收藏
收藏成功


打开文本图片集

摘要: 针对安全强化学习实现过程中, 基于屏蔽的实现方式可能受制于没有合适的备用策略可供使用, 导致判断出危险也不能阻止系统离开安全状态, 结合知识的实现方式虽然能通过

提取概念特征, 用结构化的知识对指定状态给予安全指导, 但有时知识蕴含的指导可能并不是最优的策略, 甚至可能不如智能体探索习得策略(剩余12549字)

monitor