基于端到端深度强化学习求解有能力约束的车辆路径问题

打开文本图片集
摘 要:有能力约束的车辆路径问题(CVRP)是现阶段供应链应用最常见的问题模型,现多采用启发式算法求解。但随着问题规模增大,启发式算法求解速度慢且无法保证解的质量。提出端到端深度强化学习(DRL)网络框架对CVRP进行研究。首先利用边聚合图注意力网络编码器(EGATE)对车辆路径规划问题的图表示进行特征嵌入编码;然后设计多头注意力解码器(MAD)进行解码,并提出多解码策略以增加解的空间多样性;接着利用带回滚基线的基线REINFORCE算法对端到端网络模型进行训练,基线可自适应性更新以提升模型训练效果,并利用奖励函数归一化和Adam优化器对算法进行优化。(剩余17987字)