面向稀疏奖励环境的多智能体协同探索问题研究
文献类型:学位论文
作者 | 白云鹏 |
答辩日期 | 2023-05-25 |
文献子类 | 硕士 |
关键词 | 多智能体,强化学习,超图,变分推断,好奇心 |
英文摘要 | 近年来,随着深度学习方法的发展,深度强化学习在多智能体系统(Multi-Agent System, MAS)中取得了非常大的成就。其中,集中式训练分布式执行框架(Centralized Training with Decentralized Execution, CTDE)成为了多智能体强化学习中的主流框架之一。在CTDE框架的基础上,很多优秀的工作成为了多智能体系统中的重要方法,如值分解技术,MAPPO方法等。但这些方法很多都忽略了智能体之间的协同关系,导致这些方法容易造成“怠惰智能体”的问题。另一方面,许多真实环境缺乏有效的奖励函数,需要智能体进行大量探索,而目前许多智能体方法忽略了这一部分,造成模型在困难场景中表现不佳。 如何将智能体之间的协同关系进行表示,并利用这些协同关系来加强智能体的协同成为了一个重要的研究课题。主流的探索方法往往会使用内部奖励机制来间接对智能体的策略网络产生影响,并且在多智能体环境中,由于环境的复杂性,神经网络难以对巨大的状态空间编码进行表示,造成内部奖励发生偏差。如何加强多智能体环境下中的智能体探索也是一个非常有研究价值的问题。针对以上两个问题,本文从值分解方法入手,设计了有效的多智能体协同算法以及探索算法。具体贡献包含了如下三点: (1)提出了一种基于超图卷积网络的多智能体协同方法HGCN-MIX。HGCN-MIX将智能体以及智能体之间的协同关系表示为一副超图。超图中的节点代表着智能体,超边代表着智能体之间的连接关系。HGCN-MIX在训练过程中不断地更新超图,从而获得智能体之间的协同关系。在此基础上,利用超图卷积的方法来聚合智能体之间的信息,加强智能体之间的通信,智能体在做出决策的过程中将考虑更多的邻居智能体的信息,由此来加强智能体之间的协同。实验结果表明,与基线方法相比,HGCN-MIX取得了更加优异的表现,同时所生成的超图也包含了智能体之间的协同关系。 (2)提出了一种基于变分推断的智能体探索方法SV-PPO。SV-PPO方法利用Stein变分推断(SVGD)方法对智能体的贝尔曼残差分布进行估计。并利用相邻时间步下的贝尔曼残差分布距离作为损失优化项,在训练的过程中同时最大化该距离,从而增大相邻时间步下的策略距离,使得策略更加多样,间接地加强智能体的探索。本文将SV-PPO方法在Atari环境中进行了实验,实验结果表明,SV-PPO方法在部分场景中达到了比基线方法更强或者相当的效果。同时,SV-PPO方法的损失大小在训练过程中的大部分时间步下均高于基线方法,说明单时间步下的策略变化更大。 (3)提出了一种基于好奇心机制以及变分推断的多智能体探索方法SVR-MAPPO。SVR-MAPPO方法利用好奇心机制来设计内部奖励。同时,为了对状态空间进行缩减,SVR-MAPPO在MAPPO方法的基础上,引入了两个估值网络,利用对状态的估计值来计算内部奖励。在此基础上,将SVGD方法拓展到MAPPO方法中,对集中式评论家网络增加采样模块以及变分推断模块,增加单时间步下的策略变化程度。通过两种方法来共同加强智能体的探索。本文选择了多幅SMAC中的高难度场景来对SVR-MAPPO方法进行测试。实验结果表明,SVR-MAPPO方法在这些场景中的表现要明显优于基线方法,在需要探索的高难度场景中表现依然非常优异。 |
语种 | 中文 |
页码 | 102 |
源URL | [http://ir.ia.ac.cn/handle/173211/51976] |
专题 | 毕业生_硕士学位论文 |
推荐引用方式 GB/T 7714 | 白云鹏. 面向稀疏奖励环境的多智能体协同探索问题研究[D]. 2023. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。