基于内在动机的深度强化学习探索策略研究
文献类型:学位论文
作者 | 陈忠鹏![]() |
答辩日期 | 2024-05-14 |
文献子类 | 硕士 |
关键词 | 深度强化学习,内在动机,探索策略,稀疏奖励 |
英文摘要 | 设计探索策略是深度强化学习领域中的一个研究热点和难点,尤其是在稀疏奖励环境中。目前,深度强化学习算法通常使用经典的探索策略,如Epsilon-greedy,来引导智能体进行探索。然而,这些经典探索策略难以解决智能体在稀疏奖励环境中遇到的硬探索问题。基于内在动机的探索策略是目前解决稀疏奖励环境中硬探索问题的有效方法,内在动机指的是高等生物在学习过程中往往会在没有外部刺激的情况下自发地探索陌生、未知的环境以提升自身在环境中的适应能力。受此启发,基于内在动机的探索策略通过某些指标将智能体的内在动机形式化为内在奖励信号,以驱动智能体进行探索。所设计的内在奖励的质量好坏会直接影响到智能体的表现,质量差的内在奖励不仅无法为智能体提供有效的探索方向,反而会成为阻碍智能体探索的噪声信号,因此,基于内在动机的探索策略的核心在于如何设计合理的内在奖励。本文针对基于内在动机的探索策略中存在的内在奖励设计问题展开研究,提出了以下三种内在奖励设计方法: 1. 提出了一种基于随机特征计数的内在奖励设计方法(CRF,Count by Random Feature)。该方法先通过随机网络获取原始高维状态的低维随机特征向量,然后将其离散化为二值编码,最后基于此二值编码来统计状态的访问次数,成功地解决了在高维状态环境中无法直接统计状态访问次数的问题,同时,基于随机特征计数的内在奖励设计方法实现简单,无需训练额外的深度神经网络。 2. 提出了一种基于条件生成对抗网络的内在奖励设计方法(CGAN-ICM,Conditional Generative Adversarial Network-Inverse Curiosity Module)。该方法利用条件生成对抗网络来建模强化学习环境中的状态转移动力学规律,然后利用生成器输出的多个不同下一状态预测值的平均预测误差作为驱动智能体进行探索的内在奖励信号。CGAN-ICM能够只通过一个生成器和一个判别器实现多个前向模型的预测输出任务,从而解决了在Disagreement$^{\citep{pathak2019self}}$中训练多个前向模型需要消耗大量计算资源和时间的问题。此外,CGAN-ICM可以看作是ICM$^{\citep{pathak2017curiosity}}$的集成学习版本,其通过多个预测输出的平均预测误差来衡量状态新颖度的做法能够获得比ICM更具备统计意义的结果。 3. 提出了一种基于全局视角和局部视角的内在奖励设计方法(CEMP,Continuous Exploration via Multiple Perspectives)。在基于内在动机的探索策略这一研究领域中的大部分工作主要通过全局视角或局部视角等单一视角来衡量状态的新颖度从而推导出每个状态对应的内在奖励,然而,从全局视角衡量状态的新颖度存在一个显著缺点,即状态的新颖度和对应的内在奖励会逐渐衰减,这种衰减的内在奖励无法持续驱动智能体在环境中进行探索。相反,从局部视角衡量状态的新颖度只会盲目地鼓励智能体频繁访问未知的状态,这不利于智能体在学习过程中策略的收敛。CEMP算法通过综合利用全局视角和局部视角下的内在奖励来驱动智能体进行探索,它通过使用局部视角计算的内在奖励来弥补从全局视角计算的内在奖励会逐渐衰减的不足。同时,从局部视角计算的内在奖励能够引导智能体发现更多环境中的新颖轨迹,从而提高智能体学习到最优策略的可能性。 在MiniGrid中的多个稀疏奖励环境的实验结果表明本文所提出的三种内在奖励设计方法均是合理有效的并且能够取得比基准算法更好的表现。 |
语种 | 中文 |
页码 | 82 |
源URL | [http://ir.ia.ac.cn/handle/173211/57174] ![]() |
专题 | 毕业生_硕士学位论文 |
推荐引用方式 GB/T 7714 | 陈忠鹏. 基于内在动机的深度强化学习探索策略研究[D]. 2024. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。