注册帐号丨忘记密码?
1.点击网站首页右上角的“充值”按钮可以为您的帐号充值
2.可选择不同档位的充值金额,充值后按篇按本计费
3.充值成功后即可购买网站上的任意文章或杂志的电子版
4.购买后文章、杂志可在个人中心的订阅/零买找到
5.登陆后可阅读免费专区的精彩内容
打开文本图片集
摘 要:策略梯度估计方差大是策略梯度算法存在的普遍问题,基于参数探索的策略梯度算法(PGPE)通过使用确定性策略有效缓解了这一问题。然而,PGPE算法基于蒙特卡罗方法进行策略梯度的估计,需要大量学习样本才能保证梯度估计相对稳定,因此,梯度估计方差大阻碍了其在现实问题中的实际应用。为进一步减小PGPE算法策略梯度估计的方差,提出了基于值函数估计的参数探索策略梯度算法(PGPE-FA),该算法在PGPE算法中引入Actor-Critic框架。(剩余11861字)
登录龙源期刊网
购买文章
基于值函数估计的参数探索策略梯度算法
文章价格:6.00元
当前余额:100.00
阅读
您目前是文章会员,阅读数共:0篇
剩余阅读数:0篇
阅读有效期:0001-1-1 0:00:00