中国科学院机构知识库网格系统: 基于表示学习和对手建模的动态博弈系统策略生成技术研究

中国科学院机构知识库网格

Chinese Academy of Sciences Institutional Repositories Grid

基于表示学习和对手建模的动态博弈系统策略生成技术研究

文献类型：学位论文


作者	詹员
答辩日期	2023-05-22
文献子类	硕士
关键词	深度强化学习表示学习对手建模空中博弈
英文摘要	近年来，人工智能技术的研究热点逐渐从智能感知迈向智能决策。在复杂博弈环境下，如网络游戏、派单推荐、军事对抗、资源调度，开发高效的决策系统上升到了关乎国家发展的重要战略地位。深度强化学习的理论和算法近些年层出不穷，被广泛用于各类序列决策任务，其迅速发展已成为人工智能决策系统的基准算法。然而在涉及高维视觉输入的现实任务中，状态维度巨大、冗余信息过多，这要求强化学习智能体能够同时学习特征编码和策略网络的组合，这需要消耗海量的数据信息和计算资源；另一方面，传统强化学习方法一般将对手看作环境的一部分，未考虑对手的行为特征，这导致己方智能体无法利用对手的弱点求得制胜策略。因此，如何针对不同场景设计合适的对手建模方法也是一个非常重要的问题。针对以上两个问题，本文设计了有效的状态表示和对手建模算法，本文的主要贡献总结如下：（1）提出了一种基于表示学习的特征空间约减与特征提取方法。针对高维状态输入下智能体接受信息冗余、样本利用率低的问题，本文开展了状态表示学习在强化学习中的研究，探索了高容量神经网络对状态表示的影响，希望通过简单地构造高容量神经网络来增强特征提取器的状态表示能力。于是本文引入一种新的跳跃连接机制，使得上下游的特征图得以交互，丰富特征信息的同时隐式拓展了神经网络的容量。在此基础上，本文将信息论的思想引入神经网络，通过信息瓶颈机制压缩状态表示的冗余信息，进一步提升状态表示的能力。实验结果表明，与基准算法相比，本文所提出的算法具有优异的得分表现，同时所学习到的状态表示具备良好的泛化性。（2）提出了一种基于长短期记忆网络和变分自编码器的对手建模方法。针对在空中博弈对抗场景下，对手态势空间的高维性和时序性导致己方难以准确地学习从对手状态到对手策略的映射。本文借鉴表示学习的思想，将对手建模抽象为从观测信息中提取对手策略的表示信息，利用长短期记忆网络对离线的对抗数据进行序列化建模，学习对手的历史状态、动作与隐藏策略的内在联系，同时借助变分自编码器生成对手的策略表示。最后本文根据空中博弈对抗的机制特点，将飞行器决策过程抽象化为“信息感知、态势表示、策略生成、机动控制”四个模块，构造了训练强化学习智能体所需的特征编码、奖励函数、动作空间、博弈算法，同时与对手建模方法相结合，增强了智能体的决策能力。实际对抗结果表明，己方智能体表现出了优秀的机动能力。（3）提出了一种基于对手建模和多臂赌博机的自适应策略生成方法。针对在对手策略不断变化时，对手建模对未知对手表示能力下降的问题，本文将策略生成分为两个过程：在离线阶段，将对手策略作为先验信息来对条件变分自编码器的解码端进行调控，从而学习对手的策略表示，进而学习到近似最优策略。在实时对抗时，引入多臂赌博机在固定策略和近似最优策略之间切换。通过两个过程来提升策略的适应性。实验结果表明，本文所提出的算法在多个场景下的表现明显优于基准算法，尤其是在面对未知对手时，仍然保持着优秀的决策能力。
学科主题	人工智能
语种	中文
页码	88
源URL	[http://ir.ia.ac.cn/handle/173211/51906]
专题	毕业生_硕士学位论文
推荐引用方式 GB/T 7714	詹员. 基于表示学习和对手建模的动态博弈系统策略生成技术研究[D]. 2023.

入库方式： OAI收割

来源：自动化研究所

浏览0

下载0

收藏0

其他版本

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。