多智能体强化学习预训练方法研究
文献类型:学位论文
作者 | 孟令辉![]() |
答辩日期 | 2024-05-15 |
文献子类 | 博士 |
关键词 | 多智能体强化学习 预训练方法 神经网络 表示学习 在线强化评估 |
英文摘要 | 自二十一世纪一十年代中期以来,神经网络赋能的多智能体强化学习技术成为提升群体智能决策能力的主要途径,该技术通过优化整个群体系统来促进智能体间的协同决策,以实现高效群体决策智能。同时为发挥神经网络的强大表征能力,该领域在日益广泛的决策场景上不断推出新的技术,逐渐兴起了基于值函数分解(value decomposition,如QMIX)、策略共享(policy-sharing,如MAPPO)以及离线预训练(offline pre-training)等代表性算法。其中,前两者在视频游戏、交通信号控制、广告竞价,甚至能源产业的发展上取得了超越人类的决策水平。但是,由于受到其在线试错学习(trial-and-error learning)机制和多智能体特性双重约束,其存在由维度诅咒(curse of dimensionality)导致的“样本效率低”问题,进一步地在跨任务上存在“泛化性差”问题。针对此现象,将在线试错收集数据过程前置在离线阶段,并基于预训练技术的多智能体强化学习框架应运而生。另外,控制单个实体的离线强化学习预训练方法在数据、平台和算法上日趋完善,一定程度上缓解了强化学习中的样本效率等问题,因此专为多智能体领域预训练框架设计的数据和平台亟待研究。此外,由于在发展的起步阶段,数据驱动下的预训练方法,仍存在难以利用具有现实世界特点的轨迹数据,即面对次优轨迹、多源轨迹数据时的“训练瓶颈”问题。
针对此背景下,本文主要面向多智能体强化学习预训练框架中的三个主要问题展开研究:“离线轨迹缺失及基础预训练方法建模能力不足”、“对次优轨迹利用不充分、性能不足”、“利用多源轨迹建模时,对任务区分性不足”。相应地,本文重点关注于多智能体强化学习预训练方法的离线轨迹收集和基座平台搭建,并沿着新型模型结构的探索、利用轨迹数据的不同质量、来源进行的预训练机制设计与优化的思路展开研究,完成了四项创新性工作:
|
语种 | 中文 |
页码 | 146 |
源URL | [http://ir.ia.ac.cn/handle/173211/56560] ![]() |
专题 | 毕业生_博士学位论文 |
推荐引用方式 GB/T 7714 | 孟令辉. 多智能体强化学习预训练方法研究[D]. 2024. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。