基于end-to-end深度强化学习的多车场车辆路径优化

  • 打印
  • 收藏
收藏成功


打开文本图片集

摘要:为提高多车场车辆路径问题(multi-depot vehicle routing problem,MDVRP)的求解效率,提出了端到端的深度强化学习框架。首先,将MDVRP建模为马尔可夫决策过程(Markov decision process,MDP),包括对其状态、动作、收益的定义;同时,提出了改进图注意力网络(graph attention network,GAT)作为编码器对MDVRP的图表示进行特征嵌入编码,设计了基于Transformer的解码器;采用改进REINFORCE算法来训练该模型,该模型不受图的大小约束,即其一旦完成训练,就可用于求解任意车场和客户数量的算例问题。(剩余21785字)

目录
monitor