中国科学院机构知识库网格系统: 面向兵棋推演的多智能体智能博弈决策算法研究

中国科学院机构知识库网格

Chinese Academy of Sciences Institutional Repositories Grid

面向兵棋推演的多智能体智能博弈决策算法研究

文献类型：学位论文


作者	余照科
答辩日期	2023-12-02
文献子类	硕士
关键词	请输入关兵棋，智能决策，多智能体，深度强化学习，分布式训练键词
英文摘要	近年来，随着深度强化学习在图像语音识别、自然语言处理等感知领域达到人类水准，人们开始将目光转向侧重于认知决策的智能决策技术，从2015年开始，智能决策技术在围棋、德州扑克、星际争霸等游戏领域取得了一系列突破，同时也在无人机控制、自主驾驶和机器人合作等领域取得了实际应用。将相关智能博弈技术应用到兵棋推演中除了可以有效加速军事决策循环，也可以借助兵棋推演中类型各异的想定研究智能博弈技术，这使得兵棋推演中的智能博弈技术研究已成为当下的热点问题。由于战场环境多样，兵棋推演的地图也种类繁多。因此针对兵棋推演的研究往往基于某个特定地形与固定种类、数量的算子（可操作单位）所构成的想定进行。本文首先介绍从数据流角度构建的面向兵棋推演的分布式并行强化学习训练平台，并展示以此为基础探索的分布式加速技术，而后介绍在此基础上由简入繁研究面向兵棋推演的智能决策技术的工作。本文在算子同构的中等起伏地想定中首先介绍了推理分析方法与兵棋推演的近似理论解，而后提出基于自博弈的深度强化学习算法，最后介绍了在搭建的平台中进行实验验证的结果。本文在算子异构的水网稻田想定中首先介绍了知识分析与建模、构建知识AI的过程，而后展示了以此为基础在搭建的平台中进行分阶段的混合驱动的深度强化学习训练过程与结果。本文的主要贡献点有两点：第一点为构建了面向兵棋推演的分布式并行强化学习训练平台，平台实现了程序并行、数据流优化等特性，从而增加了吞吐率并加速数据处理过程，从而可以显著加速深度强化学习的训练过程；第二点为提出了面向兵棋推演的智能决策方法，在算子同构的简单想定中可以通过改良的自博弈算法实现智能体智能水平的攀升，在算子异构的复杂想定中可以通过分阶段的混合驱动强化学习算法实现智能体决策水准的提高。基于上述训练平台和算法创新，我们提出的混合驱动算法在腾讯“开悟”王者荣耀邀请赛中取得复赛第四名，在第一届全国空中博弈大赛中取得三名。
语种	中文
页码	86
源URL	[http://ir.ia.ac.cn/handle/173211/50905]
专题	毕业生_硕士学位论文
推荐引用方式 GB/T 7714	余照科. 面向兵棋推演的多智能体智能博弈决策算法研究[D]. 2023.

入库方式： OAI收割

来源：自动化研究所

浏览0

下载0

收藏0

其他版本

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。