中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
执行者-评论家算法框架下的强化学习稳定性研究

文献类型:学位论文

作者龚晨
答辩日期2023-05
文献子类硕士
关键词深度强化学习,稳定性,共轭,对抗性攻击,后门攻击
英文摘要

强化学习在实际生产中具有广泛的潜在应用场景。然而,由于其训练不稳定、收敛速度缓慢、采样效率低、易受攻击等特点,该技术存在一系列问题。一方面,难以训练出具备理想性能的智能体;另一方面,若智能体的抗攻击能力不足,在受到恶意用户攻击时,将给系统带来无法估量的灾难。这些缺陷严重阻碍了强化学习在复杂实际应用中发挥更为重要的作用。

本文聚焦强化学习稳定性的问题,从强化学习的训练过程和应用过程出发,进行全面分析。在强化学习训练过程中,从算法优化的角度提高训练智能体的稳定性。在应用过程中,研究智能体潜在的漏洞,提升应用稳定性。具体来说,本文选取的角度如下。第一,在线强化学习应用阶段,如何保护智能体不受到第三方的攻击(第一贡献)。第二,离线强化学习中如何保护数据,来提升智能体应用的稳定性(第二贡献)。第三,在线强化学习训练阶段提高训练的稳定性(第三,第四贡献)。本文的四个主要贡献如下。

第一为基于好奇心机制和受害者意识的对抗性策略。研究人员揭示了DRL模型容易受到对抗性攻击的影响。攻击者训练“对抗性策略”来篡改经过充分训练的受害智能体的观察结果来进行攻击。提高深度强化学习的对抗鲁棒性对于提高各种DRL系统的质量和可靠性非常重要。本文提出了一种新颖的方法——“好奇心驱动”和“受害者感知”对抗性策略训练,可以更有效地利用受害智能体的缺陷。为了利用受害者感知信息,本文构建了一个网络,可以近似黑盒受害者的状态值函数以收集受害者的信息。提出了一种好奇心驱动的方法,鼓励对抗性策略利用智能体网络的隐藏层信息来有效地利用受害者的漏洞。大量实验表明,提出的方法在多个环境下优于或达到了当前最先进水平。

第二为研究离线强化学习下的后门攻击问题。本节的研究关注的是一种极为严重的安全威胁:后门攻击。因此,本节提出了一种名为Baffle的离线强化学习后门攻击,并评估了不同离线强化学习算法对此种攻击的反应。本节揭示了一个令人担忧的事实:现有的离线强化学习算法都无法幸免于此种后门攻击。具体而言,Baffle在四个任务中都对数据集的10%进行了修改(包括3个机器人控制任务和1个自动驾驶任务)。尽管无触发器的情况下表现良好,当触发器出现时,智能体的性能平均下降了63.6%、57.8%、60.8%和44.7%。本节发现即使对于已经存在的后门的智能体进行了微调,后门依然存在。更令人担忧的是,插入的后门也很难被常用的防御方法检测到。因此,本节呼吁对开源离线强化学习数据集进行更加有效的保护。

第三为提出了稳定强化学习训练过程的一种方法,即为“广义平稳策略优化”。深度强化学习(DRL)在视频游戏中的应用越来越广泛,但通常会遭受训练不稳定和低采样效率等问题的困扰。为了在训练过程趋于收敛时稳定贝尔曼残差分布(BRD)遵循平稳随机过程,本文提出了一种名为“广义平稳策略优化算法”(WSPO)的框架,该框架利用相邻时间步之间的BRD的Wasserstein距离来稳定训练阶段并提高采样效率。本文使用分位数回归来最小化Wasserstein距离,这样做的好处是不需要知道BRD的具体形式。最后,本文将WSPO与优势演员-评论家(A2C)算法和深度确定性策略梯度(DDPG)算法相结合。对Atari 2600视频游戏和连续控制任务进行了WSPO的评估,结果表明WSPO比本文测试的最先进算法表现更好或取得了类似的效果。

第四为提出了一种强化学习新框架,即$f$散度强化学习框架。本文提出了一种新的DRL框架,称为“f散度强化学习(FRL)”。在FRL中,策略评估和策略改进阶段同时进行,通过“最小化学习策略和采样策略之间的f散度”来实现,这与传统DRL算法旨在最大化期望累积回报的方法不同。本文在理论上证明,最小化$f$散度可以使学习策略收敛到最优策略。此外,通过Fenchel共轭,将FRL框架中的智能体训练过程转换为一个带有特定$f$函数的鞍点优化问题,形成了策略评估和策略改进的新方法。通过数学证明和实证评估,本文证明了FRL框架具有两个优点:(1)同时执行策略评估和策略改进过程,(2)自然地缓解了价值函数高估的问题。为了评估FRL框架的有效性,本文在Atari 2600视频游戏上进行了实验。实验结果表明,使用FRL框架训练的智能体在性能方面优于或达到了基线DRL算法的水平。

本文希望通过对强化学习智能体稳定性的研究,警示人们在实际应用中应谨慎使用强化学习算法,推动设计出抗攻击能力强的鲁棒,和值得信赖的强化学习算法,以推动强化学习算法在实际生活中的发展。

语种中文
页码152
源URL[http://ir.ia.ac.cn/handle/173211/52143]  
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
龚晨. 执行者-评论家算法框架下的强化学习稳定性研究[D]. 2023.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。