中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
多智能体强化学习预训练方法研究

文献类型:学位论文

作者孟令辉
答辩日期2024-05-15
文献子类博士
关键词多智能体强化学习 预训练方法 神经网络 表示学习 在线强化评估
英文摘要

自二十一世纪一十年代中期以来,神经网络赋能的多智能体强化学习技术成为提升群体智能决策能力的主要途径,该技术通过优化整个群体系统来促进智能体间的协同决策,以实现高效群体决策智能。同时为发挥神经网络的强大表征能力,该领域在日益广泛的决策场景上不断推出新的技术,逐渐兴起了基于值函数分解(value decomposition,如QMIX)、策略共享(policy-sharing,如MAPPO)以及离线预训练(offline pre-training)等代表性算法。其中,前两者在视频游戏、交通信号控制、广告竞价,甚至能源产业的发展上取得了超越人类的决策水平。但是,由于受到其在线试错学习(trial-and-error learning)机制和多智能体特性双重约束,其存在由维度诅咒(curse of dimensionality)导致的“样本效率低”问题,进一步地在跨任务上存在“泛化性差”问题。针对此现象,将在线试错收集数据过程前置在离线阶段,并基于预训练技术的多智能体强化学习框架应运而生。另外,控制单个实体的离线强化学习预训练方法在数据、平台和算法上日趋完善,一定程度上缓解了强化学习中的样本效率等问题,因此专为多智能体领域预训练框架设计的数据和平台亟待研究。此外,由于在发展的起步阶段,数据驱动下的预训练方法,仍存在难以利用具有现实世界特点的轨迹数据,即面对次优轨迹、多源轨迹数据时的“训练瓶颈”问题。

 

针对此背景下,本文主要面向多智能体强化学习预训练框架中的三个主要问题展开研究:“离线轨迹缺失及基础预训练方法建模能力不足”、“对次优轨迹利用不充分、性能不足”、“利用多源轨迹建模时,对任务区分性不足”。相应地,本文重点关注于多智能体强化学习预训练方法的离线轨迹收集和基座平台搭建,并沿着新型模型结构的探索、利用轨迹数据的不同质量、来源进行的预训练机制设计与优化的思路展开研究,完成了四项创新性工作:

 

  1.  多智能体强化学习预训练方法的数据集及基座搭建。针对多智能体在线强化学习中样本效率低和泛化性差的问题,多智能体领域逐渐兴起以预训练框架为代表的新范式。而针对预训练框架构建的大规模且多样化的数据集及对应的训练平台仍缺乏验证,其中存在决策场景和收集方法选定、轨迹合理性分析、统一且公正的评估指标定义等多项难题。本文提出了一套面向多智能体强化学习预训练设计的基础数据集和训练平台D4MARL。并通过不同质量轨迹中各要素分布的分析,佐证了数据集的合理性。此外,在收集方法上还提出基于动力学表征构建世界模型的多智能体强化学习框架UTOPIA,提出基于去噪世界模型的轨迹收集方法,以降低收集高质量轨迹的代价。实验表明,本文所提供的轨迹数据具有完备性和多样性,且训练平台提供的基座具备合理性。从一定程度上为多智能体强化学习预训练提供了有效保障。

  2. 基于转换器模型的多智能体强化学习基础预训练方法。即使基于已收集的轨迹数据,受模型容量和训练机制约束,现有离线多智能体强化学习预训练方法的建模能力仍不足。本文将转换器(transformer)引入多智能体强化学习的预训练与在线微调,构建可扩展并充分利用离线轨迹的基础预训练方法。实验上,在星际争霸微操场景的多个子地图上相比在线多智能体强化学习的样本效率平均提升40%,并初步在多任务预训练设定下提供实现方法。此外,对transformer模型在多智能体强化学习上预训练和微调过程中的接口设计、数据编码方案进行了对比研究。其中,数据集、算法实现和模型参数组合经验被多篇论文使用和引用,从而为多智能体强化学习预训练方法提供了鲁棒且可扩展的基础方案。

  3. 次优轨迹下的多智能体强化学习预训练方法。在多智能体强化学习预训练的基础方法中,专家策略的训练依赖专家轨迹,而在部分场景中专家轨迹的规模有限,且其收集同样需要专家策略与环境交互,进而催生了循环悖论问题。因此,为从数据质量角度放宽预训练方法的限制,本文提出了以奖励函数表征引导多智能体策略的对比预训练机制RCP,并基于该机制为多智能体设计相关模型结构YANHUI。进而缓解了现有方法对次优轨迹利用不充分、性能不足的问题。实验上,YANHUI可以同时利用专家轨迹和次优轨迹,并在不同比例次优轨迹下展现出较好的鲁棒性。在90%比例为次优轨迹的条件下,获得与当时最优预训练模型相当的表现。进一步从不同质量轨迹的利用上,为多智能体强化学习预训练方法提供新机制和新方法。

  4. 多源轨迹下的多智能体强化学习通用策略预训练方法。在传统多智能体强化学习预训练方法中,策略基于单个任务数据离线训练并对该任务进行微调。本文提出了一种面向多源轨迹数据进行通用策略预训练和微调的方法M3,通过对策略和任务离散化表征实现跨任务间策略的动态共享。此外,本文还将策略表征的隐空间拆解为智能体通用和独立模块,动态支持跨任务下智能体的协作,进一步降低了其泛化误差。在D4MARL提供的多源轨迹和训练平台的基础上,M3在多个难度任务集合上完成了少样本甚至零样本的有效迁移。进一步从不同来源轨迹的利用上,为多智能体强化学习预训练方法提供新机制和新方法。

 

语种中文
页码146
源URL[http://ir.ia.ac.cn/handle/173211/56560]  
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
孟令辉. 多智能体强化学习预训练方法研究[D]. 2024.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。