基于PPO算法的自动驾驶人机交互式强化学习方法

  • 打印
  • 收藏
收藏成功


打开文本图片集

摘 要:针对当前自动驾驶领域中深度强化学习(deep reinforcement learning,DRL)所面临的高计算性能需求和收敛速度慢的问题,将变分自编码器(variational autoencoder,VAE)和近端策略优化算法(proximal policy optimization,PPO)相结合。(剩余10261字)

目录
monitor
客服机器人