注册帐号丨忘记密码?
1.点击网站首页右上角的“充值”按钮可以为您的帐号充值
2.可选择不同档位的充值金额,充值后按篇按本计费
3.充值成功后即可购买网站上的任意文章或杂志的电子版
4.购买后文章、杂志可在个人中心的订阅/零买找到
5.登陆后可阅读免费专区的精彩内容
打开文本图片集
摘 要:离线-在线强化学习旨在使用少量在线微调来提高预训练模型的性能。现有方法主要包括无约束微调与约束微调。前者往往由于分布偏移过大而导致严重的策略崩溃;后者由于保留离线约束导致性能提升缓慢,影响训练效率。为了改善上述问题,可视化对比分析两类方法的微调过程,发现不准确的Q值估计是影响性能的主要原因,并提出了一种动态策略约束的双Q值强化学习算法(DPC-DQRL)。(剩余23284字)
登录龙源期刊网
购买文章
DPC-DQRL:动态行为克隆约束的离线-在线双Q值强化学习
文章价格:6.00元
当前余额:100.00
阅读
您目前是文章会员,阅读数共:0篇
剩余阅读数:0篇
阅读有效期:0001-1-1 0:00:00