基于环境状态分布优化的POMDP 值迭代求解算法

打印
收藏

收藏成功

微博 QQ空间微信

打开文本图片集

摘要：基于点的值迭代算法是一类解决 POMDP 问题的有效算法，PBVI 是基于点集的经典算法，但是其算法效率较为低下。FSVI使用内在的 MDP 最优策略来降低算法复杂度，但求解大规模问题的效果较差。为解决上述问题，提出了基于环境状态分布优化的前向搜索值迭代算法（PBVI-OSD），通过基于权重值的 QMDP 选出最佳的动作，基于信念状态和转换函数选取最大可能的状态，基于动作和状态从观察中随机选取一个观察概率大于阈值的观察，由此获得更具探索价值的后继信念点集，提升值迭代收敛的质量。（剩余15581字）

试读结束

购买全文6.00元下一篇复杂路段的角度差和后续点地图匹配方法

计算机应用研究

2022年02期

¥12.00/本