增强协作多智能体强化学习中的全局信用分配机制

打开文本图片集

摘要：针对协作多智能体强化学习中的全局信用分配机制很难捕捉智能体之间的复杂协作关系及无法有效地处理非马尔可夫奖励信号的问题，提出了一种增强的协作多智能体强化学习中的全局信用分配机制。首先，设计了一种新的基于奖励高速路连接的全局信用分配结构，使得智能体在决策时能够考虑其所分得的局部奖励信号与团队的全局奖励信号;其次，通过融合多步奖励信号提出了一种能够适应非马尔可夫奖励的值函数估计方法。（剩余10057字）

~~试读结束~~

购买全文6.00元打印文章

网站仅支持在线阅读（不支持PDF下载），如需保存文章，可以选择【打印】保存。

下一篇基于Web系统的大数据搜索技术的实现和优化

畅销排行榜

计算技术与自动化

2021年01期

电子价￥10.89元

购买