中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
图式表征引导的智能体协同决策算法研究

文献类型:学位论文

作者阮景晴
答辩日期2024-08-13
文献子类博士
关键词多智能体强化学习,多智能体系统,深度强化学习,图式表征,协同决策
英文摘要

随着人工智能技术的快速发展,依托于深度神经网络技术的多智能体强化学习算法已经在解决多人游戏、智能交通和军事指挥作战等多智能体协同决策任务中展现出显著的应用潜力。通过建模智能体之间的互动策略,多智能体强化学习技术能够在一定程度上解决较为复杂的决策和控制问题。然而,随着任务复杂度和智能体数量的增加,实现多智能体间的高效协同成为了一个关键的挑战。现有的多智能体强化学习算法往往侧重于优化单个智能体的策略,而智能体之间的协同决策关系没有得到充分或显式地发掘和利用。

在此背景下,图结构凭借其强大的表征能力,成为理解和建模智能体间的复杂依赖关系的有效工具。对多智能体系统的内在结构进行图式表征的建模,不仅能够揭示智能体的底层行为之间的依赖关系,还能够探索更广泛的高层任务规划和协同决策关系。因此,本文聚焦于利用图式表征的独特优势,深入发掘智能体间的底层互动和依赖关系,同时探索更高层级的任务规划与协同决策机制,以提高多智能体系统的整体协同效率和决策质量。首先,本文从微观层面出发,深入研究智能体之间的交互依赖关系,特别关注基于树结构以及有向无环图结构引导的多智能体异步决策依赖机制;接着,在宏观层面,针对复杂任务的拆解与规划场景,本文深入研究了基于多叉树的复杂任务路径规划与执行的策略;最后,为了满足复杂系统中多个维度下的协同决策的需求,本文研究了基于多尺度图式表征的智能体协调策略。本文的主要工作与创新点归纳如下:

(1) 为改善微观层面智能体间动作依赖的表征不足导致的协调效率低下问题,本文提出了一种基于图式表征的微观动作异步决策算法。与传统的基于图的多智能体强化学习算法中同步动作执行的框架不同,该算法强调了智能体间存在的异步动作依赖关系。通过利用图式结构来表征这种关系,并最大化累积奖励进行自适应学习,每个智能体能够根据环境状态和其他智能体的动作做出最佳的决策响应。为此,本文提出两种主要的异步动作协调框架,即基于树结构和基于有向无环图结构的框架。这些框架通过学习多智能体环境内在的图结构,以揭示智能体之间的动作依赖关系,为智能体的在线推理提供底层决策支持。多个多智能体基准环境的测试结果显示,这些框架能够有效表征智能体之间的决策依赖关系,从而提升多智能体系统的协同决策能力。

(2) 为应对宏观层面上复杂任务的拆解与调度挑战,本文提出了一种新颖的基于多叉树的任务规划与协同决策算法。该算法的实施分为两个关键阶段:首先,第一阶段采用多编码器-单预测器的预训练模式对轨迹数据进行学习,以捕获蕴含动力学特性的子任务表征;其次,第二阶段引入了一个可灵活调整深度和宽度的多叉树图式表征引导的任务规划框架,以指导实时任务规划和协调,从而逐步完成复杂任务。六个具有不同复杂度的导航任务的测试结果显示,该算法在处理高复杂性和高未知性的任务时展现出显著的优势。

(3) 为应对复杂系统决策问题的多维性,本文深入研究了多尺度图式表征下的协同决策算法。首先,通过设计有效的双流互模拟机制,该算法能够高效地从专家轨迹数据中提取关键的动力学决策信息。基于这些信息,算法从三个决策维度出发,旨在全面增强复杂系统中多智能体的协作能力。在宏观层面,该算法利用态势图引导的规划策略,为整体决策过程提供全局视角和高层信息支持。在介观层面,该算法采用基于行列式点过程的采样方法实现智能体的有效分组,以增强智能体间的协作,从而适应不同的任务需求和环境变化。在微观层面,该算法采用有向无环图引导的异步决策策略,进一步细化智能体的动作选择和执行过程,确保精确的动作执行。这种多尺度联合的决策增强框架为求解多智能体系统中的复杂任务提供了一种全面而灵活的方案。在多个多智能体基准环境中的全面评估表明,该算法显著提升了性能,展示了其在增强多智能体系统决策质量和效率方面的有效性和潜力。

综上所述,本文致力于提升复杂系统中多智能体的协同决策效率和质量,深入探讨了基于图式表征的决策增强机制。通过引入图式表征引导决策的一系列算法,本文有效地改善了多智能体系统中存在的协作效率不足问题。这些算法为多智能体强化学习领域提供了新的视角和工具,并在下游应用中展现出了显著的效果和广泛的应用潜力。

语种中文
页码172
源URL[http://ir.ia.ac.cn/handle/173211/59411]  
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
阮景晴. 图式表征引导的智能体协同决策算法研究[D]. 2024.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。