面向动态三维迷宫的综合奖励设计

打印
收藏

收藏成功

微博 QQ空间微信

打开文本图片集

摘要：动态三维迷宫是较为困难的、具有不确定性和不完全信息的强化学习任务环境，使用常规奖励函数在此环境中训练任务，速度缓慢甚至可能无法完成。为解决利用强化学习在动态迷宫中寻找多目标的问题，提出一种基于事件触发的综合奖励方案。该方案将三维迷宫中各种行为状态表达为各种事件，再由事件驱动奖励。奖励分为环境奖励和内部奖励，其中环境奖励与三维迷宫任务直接相关，含有体现任务目标的节点奖励和任务约束的约束奖励。（剩余12695字）

试读结束

购买全文6.00元下一篇考虑实时订单更新的拼车调度双层规划模型

计算机应用研究

2024年06期

¥12.00/本