中国科学院机构知识库网格系统: 基于深度强化学习的群体协同决策关键问题研究

中国科学院机构知识库网格

Chinese Academy of Sciences Institutional Repositories Grid

基于深度强化学习的群体协同决策关键问题研究

文献类型：学位论文


作者	王彗木
答辩日期	2021-04
文献子类	博士
授予单位	中国科学院大学人工智能学院
授予地点	中国科学院大学
导师	易建强
关键词	群体系统协同决策多智能体系统深度强化学习图卷积网络注意力机制
学位专业	计算机应用技术
英文摘要	群体智能起源于人类对群体性生物行为的观察和研究，因其分布性、简单性、灵活性和智能性等优势，被广泛用于搜索救援、城市安防以及智能交通等各个领域，是我国《新一代人工智能发展规划》中核心研究领域之一。然而，现实中的任务多为并发性或综合性任务，对群体协同决策能力有很高的要求。近年来兴起的深度强化学习方法由于其极强的学习与探索特性为群体协同决策能力提升提供了新的解决思路，但仍有诸多关键问题亟待解决。如在群体系统中，动态变化的局部观测信息使得智能体难以提取有效信息进行决策。此外，群体系统中复杂且时变的交互关系使得智能体难以适应。进一步地，群体环境中智能体通讯范围内大量可通讯对象会导致通讯冗余从而干扰智能体决策。本文针对上述影响群体协同决策能力的动态局部观测信息、邻域关系以及冗余通信等问题提出了一系列基于深度强化学习的群体协同决策方法： 1. 针对复杂动态环境下智能体动态局部观测信息问题，提出基于图卷积网络与长短期记忆网络的动态环境处理方法。一方面，将图卷积与注意力机制相融合，利用图卷积扩大智能体通信范围，并利用注意力机制差异化处理周围智能体状态，从而促进智能体合作。另一方面，引入长短期记忆网络，利用其时序关系处理能力对动态实体的空间结构进行映射，从而提升智能体处理动态局部观测信息能力。仿真实验结果表明该方法有效提升了智能体在动态环境下的协同决策能力。 2. 针对复杂及时变交互关系处理问题，设计了新型软性注意力机制来处理智能体间的复杂交互关系，并提出了基于增强注意力机制的群体强化学习框架来处理时变交互关系。前者通过给不同子空间赋予不同权重系数，提取有效的深层次子空间特征，从而提高智能体处理复杂交互关系能力。后者通过融合图卷积网络与长短期记忆网络，在处理时变交互关系的同时还能保留智能体的隐式空间结构。仿真实验结果表明该框架有效提升了智能体对复杂时变邻域关系的提取能力，并加快了策略训练收敛速度。 3. 针对通信冗余问题，提出基于先验知识与认知差异的冗余通信剪枝方法。设计了先验知识将智能体分组，并采用图注意力机制对分组后智能体状态进行处理以获得跨群组高维特征。其次，基于以上跨群组高维特征，通过自动变分编码器得到智能体对环境认知的后验分布，并基于该后验分布用 Kullback-Leibler散度对冗余信息进行剪枝。最后再通过注意力机制对剪枝后的信息进行差异化处理。仿真实验结果表明该框架有效提升了智能体对冗余信息的剪枝能力及智能体的决策能力。总体而言，本文从群体协同决策能力的提升出发，针对动态局部观测信息、邻域关系以及通信冗余等若干影响群体协同决策行为的关键问题，提出了一系列基于深度强化学习的群体协同决策方法，并通过一系列复杂的合作与对抗任务的仿真场景对所提方法进行了验证，为群体协同决策能力的提升作出了积极的应用探讨。
语种	中文
页码	130
源URL	[http://ir.ia.ac.cn/handle/173211/44958]
专题	综合信息系统研究中心_飞行器智能技术
推荐引用方式 GB/T 7714	王彗木. 基于深度强化学习的群体协同决策关键问题研究[D]. 中国科学院大学. 中国科学院大学人工智能学院. 2021.

入库方式： OAI收割

来源：自动化研究所

浏览0

下载0

收藏0

其他版本

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。