中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
基于序列展开模型的多智能体方法研究

文献类型:学位论文

作者Luo ZX(罗正昕)
答辩日期2024-05
文献子类硕士
关键词多智能体 强化学习 序列展开模型 信度分配 非平稳性
英文摘要

多智能体强化学习近年来发展迅猛,诞生了一大批性能优异的算法,在实际落地方面也有了初步的成果。尽管多智能体强化学习取得了令人瞩目的成就,合作型多智能体强化学习仍存在许多问题亟需解决。其中信度分配与非平稳性就是两个被广泛关注的问题。本文通过将多智能体决策过程进行序列展开(Sequentially Unrolled)建模,针对上述两个问题提出了相应的算法。

信度分配问题是指在完全合作的多智能体系统任务中,环境仅对多智能体系统的联合动作返回一个总体的全局奖励,让区分各智能体之间的具体贡献变得困难。单个智能体对于自身动作价值的评估由于其它智能体动作的改变而产生误差,因此降低了算法性能。本文基于序列展开模型分析了多智能体系统中其余智能体动作对于单个智能体局部优势函数估计的影响,提出了一种针对单个智能体优势函数估计的新方法,并设计了相应的广义优势函数估计器。由于该方法需要计算每个智能体序列展开后虚拟节点的动作价值函数,一般的评论家网络(Critic Network)需要进行多次推理。为高效计算每个智能体的动作价值函数,本文提出了联合动作隐层表征的加性分解假设,并在此基础上设计了一个基于Transformer模型的评论家网络。该网络精心设计了掩膜模板,可以对所有智能体的序列展开动作价值函数进行批处理计算,使得网络能够通过一次推理便获得所有智能体决策序列展开的动作价值函数。

非平稳性问题指多智能体系统中,其余智能体动作的变化会改变环境的状态转移以及奖励信号,从而干扰对智能体策略更新方向的估计,影响算法性能。本文通过序列展开模型将多智能体强化学习任务转化为单智能体的序列决策任务,随后提出一个将预训练模型与策略蒸馏相结合的两阶段方法。首先在第一阶段预训练一个顺序决策的中心化策略,在第二阶段通过策略蒸馏使得独立执行的去中心化智能体能够在学习过程中利用预训练的中心化策略的信息,加速去中心化策略的稳定学习、提升其性能。使去中心化部署的策略可以通过自回归序列决策得到的中心化策略辅助平稳学习,同时具有去中心化部署的响应速度快、不需要通信机制等特点。本文还分析了使用序列决策得到的中心化策略辅助学习的前提假设,并在矩阵单步博弈上进行了验证。

本文在星际II微操环境和灵巧手双手配合环境上进行了实验,并验证了本文所提方法的性能较基线方法有较大提升。总而言之,决策序列展开模型是分析、解决多智能体任务中现存问题的有力工具,具有广阔的发展空间。

语种中文
页码84
源URL[http://ir.ia.ac.cn/handle/173211/56908]  
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
Luo ZX(罗正昕). 基于序列展开模型的多智能体方法研究[D]. 2024.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。