中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
面向多机器人博弈的深度强化学习方法

文献类型:学位论文

作者胡光政
答辩日期2024-05-12
文献子类博士
关键词多智能体深度强化学习 多机器人博弈 极小极大Q学习 值分解 最大熵
英文摘要

请输入中文摘要

随着机器人技术的不断进步和应用场景的多样化,传统的单一机器人系统已经不能满足现代社会的需求。然而,多机器人系统在复杂环境中高效地完成任务仍然存在诸多挑战。多智能体强化学习作为人工智能技术的重要分支,日益成为业界关注的焦点。深入探索多智能体强化学习在多机器人系统中的应用,不仅有助于推动人工智能技术的发展,更能为构建智能化、高效率的未来社会提供重要支撑。但是由于现实任务的复杂性和约束性,大部分深度强化学习算法无法很好地直接应用到多机器人系统中。为了应对这些挑战,本文以多机器人合作对抗任务为典型交互场景,重点研究基于多智能体深度强化学习方法在复杂的多机器人合作对抗任务中的决策问题。针对当前的多智能体强化学习环境局限于或仿真环境、或特定任务、或特定算法的问题,本文提出了一个新的面向多机器人合作对抗任务的多智能体强化学习算法训练和评估平台;针对在通信带宽受限情况下多智能体系统的高效合作与通信问题,提出了一种基于事件触发通信的多智能体强化学习方法;针对现有两团队零和博弈方法数据利用率低,未充分考虑团队内信用分配以及计算复杂度高等问题,提出了基于值分解的多智能体极小极大拟合Q迭代方法;针对现有两团队零和博弈强化学习算法的不足,以及前一种方法只适用于离散动作空间任务的问题,提出了一种熵引导的极小极大值分解强化学习算法。本文主要章节包含以下工作和贡献:

多机器人合作对抗强化学习平台。针对当前的多智能体强化学习环境局限于仿真环境、或特定任务、或特定算法的问题,提出了一个新颖的多智能体强化学习算法训练和评估平台NeuronsMAE。首先,NeuronsMAE模拟真实世界中的机器人合作和对抗任务,基于高度灵活可变的观测和动作空间,使用者可根据算法特征自定义可观测状态和动作属性。其次,NeuronsMAE提供了保真度较高的环境和机器人模型,以及丰富的动力学模型参数接口,支持从仿真到实体的多机器人策略迁移的研究。最后,在NeuronsMAE上评估了多种多智能体强化学习算法和从仿真到实体的方法,创建了一个新的多机器人合作和对抗任务基准,促进多智能体强化学习算法在多机器人领域的研究和应用。

事件触发通信的多智能体强化学习方法。针对在通信带宽受限情况下多智能体系统的高效合作与通信问题,提出了一种基于事件触发通信的多智能体强化学习方法ETCNet。首先,提出了事件触发通信网络,旨在通过仅在必要时进行通信来提高多智能体系统中的通信效率。同时通过将有限带宽转换为惩罚阈值,并将其与多智能体优化目标相结合,建立了一个有约束的马尔可夫决策过程模型来学习事件触发通信策略,使得多智能体系统在保证合作性能的前提下降低系统的通信量,以满足通信带宽约束。最后,在多种环境下对ETCNet与对比算法的性能进行比较,结果表明,ETCNet相比其他方法更加显著地降低了带宽消耗,并最大程度上保持了多智能体的合作性能。

基于值分解的多智能体极小极大拟合Q迭代方法。针对现有两团队零和博弈方法数据利用率低,未充分考虑团队内信用分配以及计算量大等问题,提出了一种基于值分解的多智能体极小极大拟合Q迭代方法FM3Q。首先,为两团队零和马尔可夫博弈定义了“个体-全局-极小极大”准则,通过 Q 函数指定两团队的极小极大行为与个体贪心行为之间的一致性。近一步提出基于值分解的多智能体极小极大拟合Q迭代方法,将联合极小极大Q函数分解为个体Q函数,同步优化两个团队所有智能体的策略。最后,在理论上证明了算法的全局收敛性。在实验中用多种指标对该算法和基线算法进行评估对比,展示了其更加出色的性能。

熵引导的极小极大值分解强化学习方法。针对现有两团队零和博弈强化学习算法的不足,以及FM3Q只适用于离散动作空间任务的问题,提出了一种熵引导的极小极大值分解强化学习算法EGMF。首先,提出了分解极小极大执行器-评估器框架,显式构造了基于神经网络的策略评估器和执行器,可以在不限动作空间的任务中提升优化效率和算法性能。其次,引入最大熵使智能体可以更充分地探索状态空间,避免在线学习过程收敛到局部最优。同时沿智能体的轨迹统计策略在时间域累加的熵值,评估策略的熵并将其与分解的个体Q值结合用于策略改进。最后在多机器人博弈仿真场景和实体任务上进行测试,并与其他基线方法进行比较,算法表现出以更少的样本实现更优的性能。

语种中文
页码146
源URL[http://ir.ia.ac.cn/handle/173211/58503]  
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
胡光政. 面向多机器人博弈的深度强化学习方法[D]. 2024.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。