对抗环境中基于值分解框架的多智能体协同算法研究
文献类型:学位论文
作者 | 杨光开![]() |
答辩日期 | 2022-05 |
文献子类 | 硕士 |
授予单位 | 中科院自动化研究所 |
授予地点 | 中科院自动化研究所 |
导师 | 黄凯奇 |
关键词 | 多智能体协同,信用分配,贝叶斯超网络,部分可观测约束,贝叶斯神经网络 |
学位名称 | 工学硕士 |
学位专业 | 模式识别与智能系统 |
英文摘要 | 多智能体协同是求解团队对抗的关键问题,近年来受到研究者们的广泛关注。研究者们结合博弈论和深度强化学习将多智能体协同任务建模为分布式部分可观测马尔可夫决策过程,并按照中心化训练分布式执行学习范式提出了一系列重要工作。其中,值分解框架是该范式中的代表性方法,为解决多智能体协同中的信用分配问题提供了重要支撑。然而,当前值分解框架仍然存在一些不足,如忽略了对信用分配策略空间的探索,缺乏信用分配不确定度表示等。此外,部分可观测约束造成的信息缺失会使得智能体对动作价值估计包含极大的不确定性,而当前值分解框架忽略了对这些不确定性的处理。这些不足导致值分解框架在很多场景中只能得到次优策略。为此,本文基于值分解框架针对多智能体协同中的信用分配和部分可观测约束这两个关键问题展开进一步研究。对于信用分配问题,本文提出了随机化信用分配方法和基于不确定度的多智能体信用分配方法;对于部分可观测约束问题,本文提出了多智能体不确定度共享方法。 本文的三个研究工作可以总结为如下内容: 1. 随机化信用分配方法。在很多困难的多智能体协同任务中,智能体之间交互十分复杂,需要具备复杂的合作行为才能得到良好的联合策略。信用分配在很大程度上决定了智能体之间的协同能力,如何探索到更好的信用分配策略以避免陷入局部最优解是提升智能体协同能力的关键。当前的值分解框架以确定性的方法实现信用分配,忽略了对信用分配策略空间的探索,无法得到更好的联合策略。针对这一问题,本文提出了随机化信用分配方法,从形式上定义了信用分配策略空间。通过在训练时基于可学习的高斯分布,以一定概率采样出一个信用分配策略,利用随机性触发对信用分配策略空间的探索。其中,高斯分布的学习依赖于重参数化技巧,通过标准的随机梯度下降进行优化。同时利用熵正则化控制探索范围,避免探索过度导致学习不稳定,最终实现了对信用分配策略空间的有效探索。 |
学科主题 | 模式识别 |
语种 | 中文 |
页码 | 90 |
源URL | [http://ir.ia.ac.cn/handle/173211/48516] ![]() |
专题 | 中国科学院自动化研究所 自动化研究所_毕业生 毕业生_硕士学位论文 智能系统与工程 |
推荐引用方式 GB/T 7714 | 杨光开. 对抗环境中基于值分解框架的多智能体协同算法研究[D]. 中科院自动化研究所. 中科院自动化研究所. 2022. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。