基于环境状态分布优化的POMDP 值迭代求解算法

打开文本图片集
摘 要: 基于点的值迭代算法是一类解决 POMDP 问题的有效算法,PBVI 是基于点集的经典算法,但是其算法效率较为低下。FSVI使用内在的 MDP 最优策略来降低算法复杂度,但求解大规模问题的效果较差。为解决上述问题,提出了基于环境状态分布优化的前向搜索值迭代算法(PBVI-OSD),通过基于权重值的 QMDP 选出最佳的动作,基于信念状态和转换函数选取最大可能的状态,基于动作和状态从观察中随机选取一个观察概率大于阈值的观察,由此获得更具探索价值的后继信念点集,提升值迭代收敛的质量。(剩余15581字)