中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
表示增强的深度强化学习算法研究

文献类型:学位论文

作者张清扬
答辩日期2024-05-15
文献子类博士
关键词请输入关键词深度强化学习,表示学习,分层强化学习,多智能体强化学习,大型语言模型
英文摘要

得益于深度神经网络强大的近似能力,深度强化学习能够在端到端的训练过程中同时学习表示和策略。通过在环境中试错,深度强化学习智能体接收环境的奖励信号,并调整表示与策略,以最大化累积回报。然而,奖励驱动的表示学习存在收敛速度慢和过度拟合奖励信号的问题。相比之下,人类对物理世界的理解并非完全由奖励驱动,而是更为复杂和多样化,具有层次化结构。具体而言,人类通常会将复杂的任务分解为多个子任务,并在不同的任务层级上学习表示与进行决策。此外,人类群体在解决协作任务时会形成明确的分工和协作关系,以将复杂的群体决策分解为更简单、更易于管理的小组决策。
这种层次化的认知与决策机制帮助人们逐步建立更抽象和高级的表示,从而更有效地理解和应对物理世界的复杂性。人类的层次化认知与决策机制为设计更灵活、更智能的深度强化学习算法提供了宝贵的思路。

深度强化学习通常采用向量来表示状态、动作和其他相关信息。然而,相比于向量形式的表示,自然语言作为一种更为先进和接近人类思维方式的表示形式,能够直观地传达更加丰富的信息。近年来,大型语言模型展现出了强大的语义理解和生成能力。将大型语言模型引入深度强化学习中以生成自然语言形式的表示,有望带来更灵活、更丰富多样,以及更具可解释性的表示与决策。这种结合为深度强化学习算法的发展提供了新的思路和方法,有望推动深度强化学习算法在各种任务和场景中的应用,并取得更好的性能。

本文借鉴人类的层次化认知与决策机制,对多种深度强化学习方法进行了表示增强的研究,旨在解决这些方法面临的长时程稀疏奖励、部分可观测性等挑战,并提升它们在平衡探索与利用、促进多智能体协作、提升可扩展性和可解释性等性能方面的表现。通过表示学习方法和大型语言模型,本文对深度强化学习方法中的子任务、共识、编组等关键要素实现了向量和自然语言两种形式的表示增强。
本文的研究内容和主要创新点涵盖以下三个方面:

1. 子任务表示增强的分层深度强化学习方法。
该研究面向单智能体决策场景,对任务进行了层次化分解。该研究将单智能体系统视为仅具有个体层级的单层级结构,并综合考虑了抽象时间尺度和原子时间尺度的状态转移情况,通过表示学习方法,学习了具有时序抽象性和时序一致性的子任务表示。在此基础上,该研究构建了隐空间路标图以对任务进行表示,并通过理论推导将分层深度强化学习的策略求解问题转化为隐空间路标图的路径规划问题。隐空间路标图的节点是学习到的子任务的隐变量表示,而图的边对应子任务的转移。此外,该研究基于隐空间路标图设计了一种子任务选择策略,实现了更好的探索和利用的平衡。与现有方法相比,该研究学习了具有时序抽象性和时序一致性的子任务表示,并通过建立隐空间路标图,在具有长时程稀疏奖励的决策任务中显著提高了样本效率和渐进性能。该研究共实现了两种算法变体,它们采用了不同的策略构建隐空间路标图,并展现了在计算效率和性能方面的不同优势。

2. 共识表示增强的多智能体深度强化学习方法。该研究面向多智能体决策场景,对群体进行了层次化组织。该研究将多智能体系统划分为群体-个体两层级结构,并提出了双流共识的概念,包括智能体内和智能体间共识。在个体层级,该研究学习具有时序抽象性和时序一致性的隐表示,作为单个智能体对任务的宏观理解(智能体内共识)。在群体层级,该研究通过表示学习,将各个智能体对任务的宏观理解进行对齐(智能体间共识)。该研究定义同时具有时序抽象性和时序一致性,且满足对齐关系的隐表示为双流共识的表示,并使用双流共识的表示指导智能体的分布式决策过程。双流共识的引入克服了多智能体系统的部分可观测性挑战,并显著提高了多智能体的协作能力。该研究提出的方法能够灵活地与多种多智能体深度强化学习算法相结合,并提高它们解决部分可观测性和促进多智能体协作的能力。与现有方法相比,该研究能够在分布式执行过程中通过隐式推理双流共识的表示,实现信息的增强,而无需智能体间通信或对其他智能体进行建模。

3. 编组表示增强的分层多智能体深度强化学习方法。该研究面向多智能体决策场景,对任务和群体分别进行了层次化分解和组织。该研究将多智能体系统划分为群体-小组-个体三层级结构,并通过增强编组的表示,显著提高了多智能体深度强化学习方法克服部分可观测性、促进多智能体协作,以及提升可扩展性和可解释性的能力。该研究共包含了两项工作,它们分别采用了不同形式的表示增强了编组表示。
(1)第一项工作实现了向量形式的表示增强,其中编组的表示是通过表示学习来隐式地形成和表达的。该工作使用注意力模型作为编组规划器,根据环境状态进行自适应编组(群体层级)。通过学习个体子任务表示(个体层级)和建立组内共识(小组层级),该工作得到了组任务的表示。此外,该工作通过训练组任务表示在表示空间的分布关系,进一步学习了组标识的表示(小组层级)。组任务和组标识的表示结合形成了编组的表示。
(2)第二项工作实现了自然语言形式的表示增强,其中编组的表示是由大型语言模型生成的。该工作使用大型语言模型作为编组规划器,利用它们的语言生成能力得到了自然语言表述的组任务和组标识。此外,该工作引入了大型语言模型实现的反思器。该反思器通过对历史轨迹进行反思获得经验,并基于这些经验优化编组规划器的策略。
与现有方法相比,第一项工作通过增强向量形式的编组表示,显著提高了算法对具有动态团队组成的多智能体系统的可扩展性;第二项工作通过使用大型语言模型生成自然语言表述的编组,显著提高了决策过程的可解释性。
 

学科主题人工智能
语种中文
页码158
源URL[http://ir.ia.ac.cn/handle/173211/57198]  
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
张清扬. 表示增强的深度强化学习算法研究[D]. 2024.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。