中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
对抗生成式模仿学习方法研究

文献类型:学位论文

作者关伟凡
答辩日期2023-05
文献子类硕士
关键词强化学习 模仿学习 对抗生成训练 次优专家样本 基于观测的模仿学习
英文摘要

近年来,伴随着AlphaGo、MuZero、ChatGPT 等标志性工作的出现,强化学习受到学术界和工业界的广泛关注。然而强化学习存在采样效率低,奖励函数难以设计等问题。对此,模仿学习作为强化学习的重要研究分支方向之一,给出了全新的解决方案。模仿学习旨在从人类专家提供的演示样本中进行数据挖掘,让智能体学习人类专家的决策规律,从而达到和人类专家相同的决策能力。模仿学习借鉴对抗生成网络的思想衍生出对抗生成式模仿学习,通过智能体与奖励函数的对抗训练,使智能体达到和专家相同的决策效果。

然而对抗生成式模仿学习依然存在很多待解决的问题,例如:专家样本混杂、质量不一致;在新的测试环境中泛化能力较差、性能表现降低等。针对上述问题,本文首先对当前模仿学习的研究现状进行归纳总结,然后提出了两种改进的对抗生成式模仿学习算法,主要贡献如下:

1. 针对专家样本质量不一致问题,本文提出:通过噪声对比估计改良次优专家样本特征分布。为专家样本标定权重系数,并通过奖励函数预测样本排序,计算排序损失。利用排序损失对权重系数进行自适应优化,进一步改良数据集的样本分布,使得算法在学习过程中更加关注最优专家样本。提升了对抗生成式模仿学习的性能表现。

2. 针对视觉观测场景下智能体泛化能力较差问题,本文提出:通过预训练视觉模型对原始视觉观测进行特征提取,将抽取得到中间层的特征图作为智能体的状态观测特征,输入后续基于视觉观测的对抗生成式模仿学习算法之中。提升了智能体在新的测试环境中的泛化能力。

语种中文
页码66
源URL[http://ir.ia.ac.cn/handle/173211/52279]  
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
关伟凡. 对抗生成式模仿学习方法研究[D]. 2023.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。