表示增强的深度强化学习算法研究
文献类型:学位论文
作者 | 张清扬![]() |
答辩日期 | 2024-05-15 |
文献子类 | 博士 |
关键词 | 请输入关键词深度强化学习,表示学习,分层强化学习,多智能体强化学习,大型语言模型 |
英文摘要 | 得益于深度神经网络强大的近似能力,深度强化学习能够在端到端的训练过程中同时学习表示和策略。通过在环境中试错,深度强化学习智能体接收环境的奖励信号,并调整表示与策略,以最大化累积回报。然而,奖励驱动的表示学习存在收敛速度慢和过度拟合奖励信号的问题。相比之下,人类对物理世界的理解并非完全由奖励驱动,而是更为复杂和多样化,具有层次化结构。具体而言,人类通常会将复杂的任务分解为多个子任务,并在不同的任务层级上学习表示与进行决策。此外,人类群体在解决协作任务时会形成明确的分工和协作关系,以将复杂的群体决策分解为更简单、更易于管理的小组决策。 深度强化学习通常采用向量来表示状态、动作和其他相关信息。然而,相比于向量形式的表示,自然语言作为一种更为先进和接近人类思维方式的表示形式,能够直观地传达更加丰富的信息。近年来,大型语言模型展现出了强大的语义理解和生成能力。将大型语言模型引入深度强化学习中以生成自然语言形式的表示,有望带来更灵活、更丰富多样,以及更具可解释性的表示与决策。这种结合为深度强化学习算法的发展提供了新的思路和方法,有望推动深度强化学习算法在各种任务和场景中的应用,并取得更好的性能。 本文借鉴人类的层次化认知与决策机制,对多种深度强化学习方法进行了表示增强的研究,旨在解决这些方法面临的长时程稀疏奖励、部分可观测性等挑战,并提升它们在平衡探索与利用、促进多智能体协作、提升可扩展性和可解释性等性能方面的表现。通过表示学习方法和大型语言模型,本文对深度强化学习方法中的子任务、共识、编组等关键要素实现了向量和自然语言两种形式的表示增强。 1. 子任务表示增强的分层深度强化学习方法。 2. 共识表示增强的多智能体深度强化学习方法。该研究面向多智能体决策场景,对群体进行了层次化组织。该研究将多智能体系统划分为群体-个体两层级结构,并提出了双流共识的概念,包括智能体内和智能体间共识。在个体层级,该研究学习具有时序抽象性和时序一致性的隐表示,作为单个智能体对任务的宏观理解(智能体内共识)。在群体层级,该研究通过表示学习,将各个智能体对任务的宏观理解进行对齐(智能体间共识)。该研究定义同时具有时序抽象性和时序一致性,且满足对齐关系的隐表示为双流共识的表示,并使用双流共识的表示指导智能体的分布式决策过程。双流共识的引入克服了多智能体系统的部分可观测性挑战,并显著提高了多智能体的协作能力。该研究提出的方法能够灵活地与多种多智能体深度强化学习算法相结合,并提高它们解决部分可观测性和促进多智能体协作的能力。与现有方法相比,该研究能够在分布式执行过程中通过隐式推理双流共识的表示,实现信息的增强,而无需智能体间通信或对其他智能体进行建模。 3. 编组表示增强的分层多智能体深度强化学习方法。该研究面向多智能体决策场景,对任务和群体分别进行了层次化分解和组织。该研究将多智能体系统划分为群体-小组-个体三层级结构,并通过增强编组的表示,显著提高了多智能体深度强化学习方法克服部分可观测性、促进多智能体协作,以及提升可扩展性和可解释性的能力。该研究共包含了两项工作,它们分别采用了不同形式的表示增强了编组表示。 |
学科主题 | 人工智能 |
语种 | 中文 |
页码 | 158 |
源URL | [http://ir.ia.ac.cn/handle/173211/57198] ![]() |
专题 | 毕业生_博士学位论文 |
推荐引用方式 GB/T 7714 | 张清扬. 表示增强的深度强化学习算法研究[D]. 2024. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。