中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
稀疏奖励环境下基于自博弈框架的智能空战算法研究

文献类型:学位论文

作者何少钦
答辩日期2024-05
文献子类硕士
关键词强化学习,离线强化学习,空战,智能决策,好奇心机制
英文摘要
近年来,随着人工智能技术的不断发展,深度强化学习应用于智能决策领域
的研究也逐渐成为热点。在空战领域,超视距空战代表着空战未来发展的主要方
向,而和人工智能算法结合的超视距智能空战的研究在国际形势变幻莫测的今
天具有非常重要的研究价值。
本研究致力于超视距智能空战的未来发展,以深度强化学习为基础,开发了
适用于 1v1 超视距空战场景的空战博弈智能体训练算法。针对如何从零开始训
练空战智能体的问题,本研究提出了基于自博弈框架的训练方法,并引入具有纳
什均衡收敛性保证的神经虚拟自博弈训练算法。为了充分利用神经虚拟自博弈
训练期间产生的离线数据,本研究设计了基于离线强化学习的策略优化算法用
以改进神经虚拟自博弈训练框架。针对 1v1 超视距空战博弈场景状态空间庞大、
奖励稀疏的问题,本研究提出了多种引导智能体探索和提高智能体探索效率的
方法,包括辅助奖励和好奇心机制等。本研究的主要贡献包括以下几个方面:
(1) 提出了基于神经虚拟自博弈的空战博弈智能体训练算法,解决自博弈
训练框架的收敛性问题。相比于过去基于规则对手的训练算法,该训练框架无需
专家设计复杂的规则对手帮助智能体进行训练,且不存在对专家规则对手过拟
合的缺陷。相比于朴素的自博弈训练框架,神经虚拟自博弈在 1v1 超视距空战,
这一二人零和博弈场景下收敛到近似纳什均衡有理论上的保证。实验结果证明
了基于神经虚拟自博弈框架训练的空战智能体的性能和策略对纳什均衡的收敛
程度要高于传统的朴素自博弈训练算法。
(2) 提出了基于离线强化学习的神经虚拟自博弈训练算法,解决神经虚拟
自博弈训练算法对离线数据的样本利用效率低的问题。原本的神经虚拟自博弈
使用行为克隆算法来近似智能体的历史平均策略。用于历史平均策略学习的离
线数据集收集的是基于强化学习的最佳反应策略和环境进行交互时生成的样本。
行为克隆算法仅仅利用了强化学习五元组中的当前状态和动作,以动作为标签,
当前状态为输入,使用监督学习框架,学习状态到动作的简单映射。它忽略了五
元组中的奖励以及环境状态转移等信息,对离线数据的样本利用效率低。本研究
提出使用离线强化学习取代行为克隆算法,充分利用五元组中的所有样本数据,
提高了样本利用效率。在综合对比实验中,相比于朴素自博弈和神经虚拟自博
弈,基于离线强化学习的神经虚拟自博弈展现出了更好的训练性能和对纳什均
衡的收敛性。
(3) 提出了基于好奇心机制和离线强化学习的神经虚拟自博弈训练算法,解
决环境奖励稀疏的 1v1 超视距空战场景下的智能体训练问题。1v1 超视距空战场
景的原始奖励极为稀疏,本研究提出的第一种方法是设计多种任务相关的辅助
奖励,引导智能体的探索倾向,解决算法冷启动问题。第二,本研究引入了有效
动作集的概念,提高智能体的探索效率。最后,本研究引入了好奇心机制,和前
两种方法不同的是好奇心模块的输入为全局状态。利用好奇心机制生成的内在
奖励激励博弈双方一起努力探索更多不同的博弈态势,增加博弈态势的多样性,
从而帮助智能体策略跳出局部最优,更好地向纳什均衡策略收敛。最后的训练性
能实验和纳什均衡收敛性实验也证明了,基于好奇心机制和离线强化学习的神
经虚拟自博弈算法相比于其他算法具有显著的优势。
本文从自博弈训练框架对纳什均衡的收敛性、对离线数据的样本利用效率
以及稀疏环境下的探索方法三个方面着手,提出了基于好奇心机制和离线强化
学习的神经虚拟自博弈训练算法。该训练算法可以用于解决稀疏奖励环境下基
于自博弈框架的智能空战算法的训练问题。
语种中文
页码80
源URL[http://ir.ia.ac.cn/handle/173211/57062]  
专题复杂系统认知与决策实验室
毕业生_硕士学位论文
推荐引用方式
GB/T 7714
何少钦. 稀疏奖励环境下基于自博弈框架的智能空战算法研究[D]. 2024.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。