基于互信息最大化的意图强化学习方法的研究

打印
收藏

收藏成功

微博 QQ空间微信

打开文本图片集

摘要：强化学习主要研究智能体如何根据环境作出较好的决策，其核心是学习策略。基于传统策略模型的动作选择主要依赖于状态感知、历史记忆及模型参数等，其智能体行为很难受到控制。然而，当人类智能体完成任务时，通常会根据自身的意愿或动机选择相应的行为。受人类决策机制的启发，为了让强化学习中的行为选择可控，使智能体能够根据意图选择动作，将意图变量加入到策略模型中，提出了一种基于意图控制的强化学习策略学习方法。（剩余19945字）

试读结束

购买全文6.00元下一篇基于转化策略的异质超网络表示学习

计算机应用研究

2022年11期

¥12.00/本