连续控制任务中集成策略的多样性探索研究
文献类型:学位论文
作者 | 李超![]() |
答辩日期 | 2024-05 |
文献子类 | 硕士 |
关键词 | 强化学习 集成学习 价值估计 多样性探索 |
英文摘要 | 强化学习是一种从环境反馈中学习的机器学习方法,其有效性依赖智能体与环境充分交互并采集反馈信号,然而现有的强化学习算法存在采样效率不足的问题,这极大的限制了强化学习在实际生活中的应用。本文研究强化学习中的连续控制问题,聚焦智能体探索过程,从探索的有效性和探索能力两个方面分析影响智能体采样效率的探索行为,归结为有偏探索、盲目探索和重复探索。 探索的有效性是研究提高探索能力的前提,在探索的有效性方面,本文关注由价值估计偏差引发的有偏性探索问题。在探索能力的方面,本文从策略的多样性探索角度缓解由简单的探索策略导致的盲目性探索和重复性探索问题。总结本文的贡献点如下。 第一是研究价值偏差导致的有偏探索问题。执行者-评论家框架,是一种有效解决连续控制问题的强化学习框架。在该框架中,执行者(策略)通过评论家(价值函数)的价值评估来指导动作的选择,因此,价值函数的准确性是策略探索有效性的保证。研究人员指出,在执行者-评论家框架中,价值函数存在显著的价值估计偏差,并导致有偏的探索行为,影响智能体的探索。对于这种由价值偏差导致的有偏探索行为,本文提出一种自适应的价值偏差调整方法,通过集成多个价值模型,收紧价值偏差的边界,以实现更准确的价值估计。大量的实验表明,提出的方法在多个环境下实现了更准确的价值估计,提升了算法的性能。 第二是研究策略的盲目探索问题。当环境只能提供微弱的反馈信息时,智能体会陷入盲目性的低效探索。为此,本研究提出了名为CCEP(Centralized and Cooperative Exploration Policy)的启发式探索方式,该探索方式利用价值函数中的偏差引导智能体定向探索。为了进一步提高探索能力,CCEP集成多个策略的探索结果,集中式地训练策略,实现对环境的多样性探索和策略的信息交互。本文从算法的性能、探索的多样性和探索的能力多个维度对算法进行了评估。实验表明,CCEP能够多样的探索环境,实现了更高效的探索,并在多个环境上取得了较先进算法更优的性能。 第三是研究策略的重复探索问题。智能体对相似区域重复探索而不主动的发现新的有价值的信息,会导致过度探索造成学习的停滞。为了减少重复探索,促进多样的探索,本研究提出了一种感知轨迹的集成探索方式(Trajectories-awarE Ensemble exploratioN,TEEN)。TEEN训练智能体最大化折扣累积回报的同时最大化获取的信息分布的信息熵。理论分析说明了TEEN能够有效的实现对环境的多样性探索,并揭示了先前的集成强化学习算法的采样效率可能受到不够多样的子策略限制。在测试的环境中,相较于先进的最大熵探索方法、集成探索方法、启发式探索方法,TEEN展现出了更强的探索能力和更优的算法性能。 |
语种 | 中文 |
页码 | 78 |
源URL | [http://ir.ia.ac.cn/handle/173211/56640] ![]() |
专题 | 毕业生_硕士学位论文 |
推荐引用方式 GB/T 7714 | 李超. 连续控制任务中集成策略的多样性探索研究[D]. 2024. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。