中国科学院机构知识库网格系统: 基于模仿学习的战术兵棋智能体构建与优化关键技术研究

中国科学院机构知识库网格

Chinese Academy of Sciences Institutional Repositories Grid

基于模仿学习的战术兵棋智能体构建与优化关键技术研究

文献类型：学位论文


作者	王筱琦
答辩日期	2024-05
文献子类	硕士
关键词	兵棋推演模仿学习强化学习人机对抗
英文摘要	认知智能是国家新一代人工智能的重要发展方向，复杂博弈环境下智能体构建与优化技术的研究具有重要的应用价值和学术意义。然而在具有奖励稀疏、决策因素复杂、随机性高等特点的兵棋推演环境中，研究面临着难以探索到有效策略、状态转移不确定、多智能体行为难建模等挑战。现有方案难以完全满足兵棋环境对智能体提出的要求，因此需要针对兵棋特点进行方法的综合应用与创新，以实现适应兵棋特点且具有良好性能的智能体的高效获取。针对上述挑战，本文以陆军战术兵棋推演为验证环境，研究智能体的构建与优化关键技术。主要工作如下：（1）针对兵棋推演奖励稀疏、决策因素复杂、随机性高的特点，提出从模仿学习到强化学习的两阶段智能体构建与优化技术路线。首先使用模仿学习通过拟合高质量专家演示数据集实现具有良好决策水平智能体的高效获取，并为后续的强化学习提供较高的起点从而降低探索难度和试错成本，提高学习效率；随后使用强化学习对智能体进行在线调优从而缓解模仿学习智能体受限于专家演示水平且难以应对数据集中未出现场景的问题，进一步提高智能体对抗水平。经过相辅相成的两个阶段后，智能体在与基准智能体的对抗中达到0.83的胜率，显著高于基准智能体的0.48胜率。（2）针对兵棋推演异构多智能体协同决策问题，经过对算子之间态势信息利用方式共性与特性的分析，设计了基于注意力机制的多任务学习兵棋智能体网络。该网络在特征共享的同时实现任务特异特征的自适应表达，具有提高推理效率、减少参数量、简化系统等优点，与硬参数共享网络相比提高了算法在数据集上的效果和性能，与传统单任务学习网络构成的智能体相比对抗胜率提高了0.37。（3）针对兵棋推演状态空间大、底层属性多的特点，提炼构建游戏统计数据、算子属性状态、空间信息三类态势特征为智能体决策提供输入；根据任务需要对原始复盘数据进行质量和来源筛选，针对兵棋推演中有效动作的稀疏性和延后性设置样本过滤和标签生成规则缓解类别分布不均问题，构建出高质量专家演示数据集以保障模仿学习算法的效果，并通过引入时序信息应对敌方可观测信息的不完备性提高算法在数据集上的学习效果；在强化学习阶段针根据兵棋推演经验和任务特点进行启发式奖励重塑，引导智能体弥补模仿学习阶段策略的不足，实现了算法的有效收敛和智能体决策水平的进一步提高。
语种	中文
页码	59
源URL	[http://ir.ia.ac.cn/handle/173211/57257]
专题	毕业生_硕士学位论文
推荐引用方式 GB/T 7714	王筱琦. 基于模仿学习的战术兵棋智能体构建与优化关键技术研究[D]. 2024.

入库方式： OAI收割

来源：自动化研究所

浏览0

下载0

收藏0

其他版本

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。