中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
面向多任务和属性泛化的多智能体强化学习算法研究

文献类型:学位论文

作者黄上京
答辩日期2024-05-20
文献子类硕士
关键词多智能体强化学习 多任务强化学习 多智能体属性组成泛化 实体多机器人平台
英文摘要

深度强化学习将深度学习的表示学习能力与强化学习的决策制定能力结合起来,已经在诸如围棋、电子竞技和机器人控制等任务上超越了人类专家的表现。而在多智能体领域,多智能体强化学习展示了如何在复杂的互动环境中训练智能体进行有效的协作或竞争,这在协调无人机编队飞行、自动驾驶车辆的交通管理、以及资源分配等多智能体系统中具有重要意义。然而,现有多智能体强化学习研究普遍面临模型难以适应不同场景和问题的局限性,一方面缺乏不同任务下的自适应能力,另一方面缺乏不同属性组成下的动态调整能力。这严重制约了多智能体强化学习在现实世界中的应用,因为现实环境往往涉及多种任务需求和动态变化的智能体属性(速度、负载等能力)。为了突破这一瓶颈,本论文致力于通过算法创新,提升多智能体强化学习在多任务和属性泛化方面的能力,旨在开发出能够适应现实世界复杂性和多样性的智能协作系统。同时,本论文还通过实体机器人实验验证了所提出算法的实际应用价值,促进了多智能体强化学习从理论走向实践。

在多任务学习方面,本论文提出了一种基于注意力机制的策略网络模型,该模型能够灵活地整合任务和观测信息,让智能体根据不同的任务需求动态调整策略。通过任务-实体Transformer架构和交叉注意力设计,模型实现了对不同任务和智能体数量变化的自适应能力。此外,本论文提出了基于遗憾的多任务学习机制,以自动平衡各任务的学习进程,确保模型在所有任务上都能取得良好表现,避免了单一任务主导学习的问题。同时,本论文还利用预训练语言模型处理任务描述,赋予智能体对任务间关联的先验理解,从而增强模型面对新任务的泛化能力。这一设计使得智能体能够在新任务中复用已有知识,大幅提升了学习效率和适应能力。

对于属性泛化问题,本论文提出了基于历史交互的上下文推断机制,用以识别多智能体系统的属性组成隐变量。这一机制能够动态捕捉智能体属性的变化,为策略适应提供了关键信息。结合上下文的决策模块允许智能体在协作中实现更加精细化的行为适应,提升了多智能体系统的协作效率和鲁棒性。同时,本论文通过对比学习增强了上下文表征,使智能体能更精确地识别和协调各自角色,进一步提高了属性泛化的效果。该方法克服了传统方法难以应对属性变化的问题,为多智能体强化学习在变化环境中的应用提供了基础。

为了全面评估所提出方法的有效性和实用性,本论文构建了一个基于RoboMaster EP机器人的实体多机器人实验平台,并在此平台上进行了广泛的实验。实验设计覆盖了不同智能体属性、数量和任务目标变化等多种情况,全面考察了算法的适应能力和性能表现。实验结果显示,本论文提出的算法在多个不同场景下都展现出了优越的性能,在适应性、稳定性和协作效率等方面显著优于现有基准方法。这一结果有力地证明了所提出算法在应对现实世界动态性和多样性方面的卓越潜力,为多智能体强化学习在实际中的应用提供了坚实的基础。

语种中文
页码90
源URL[http://ir.ia.ac.cn/handle/173211/57101]  
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
黄上京. 面向多任务和属性泛化的多智能体强化学习算法研究[D]. 2024.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。