中国科学院机构知识库网格系统: 学习型群体博弈策略及其在兵棋推演中的应用

中国科学院机构知识库网格

Chinese Academy of Sciences Institutional Repositories Grid

学习型群体博弈策略及其在兵棋推演中的应用

文献类型：学位论文


作者	谢阳
答辩日期	2019-05-21
文献子类	硕士
授予单位	中国科学院大学
授予地点	中国科学院自动化研究所
导师	范国梁
关键词	强化学习兵棋推演态势分析蒙特卡洛搜索人工智能
学位名称	工程硕士
学位专业	控制工程
英文摘要	随着计算机硬件技术的飞速发展，计算机博弈研究在传统棋类游戏上已经取得了丰厚的成果。兵棋推演作为重要的作战模拟方法，受到越来越多人的关注。本文以陆军合同战术兵棋的推演规则为基础，研究兵棋推演中的博弈对抗问题。通过分析兵棋推演的复杂度，提出一种知识数据混合驱动的分层决策模型。基于该模型的决策需求，提出一种兵棋推演战场态势的分析方法。结合兵棋推演的具体情况，改进蒙特卡洛搜索，提出一种蒙特卡洛搜索初值优化算法。基于本文提出的知识数据混合驱动的分层决策模型，分别采用蒙特卡洛搜索初值优化算法和Deep-Sarsa算法设计兵棋AI，通过实验验证模型和算法的有效性。本文的主要研究工作与创新点有： 1.提出一种基于兵棋推演的知识数据混合驱动的分层决策模型。该决策模型采用分层模式控制算子机动，机动控制器包括由数据和神经网络驱动的上层宏观控制器，以及由知识和规则驱动的下层解释控制器。上层宏观控制器输出宏观决策，解释控制器通过态势分析对解释宏观决策输出基本动作。其他动作如，夺控、射击和下车等由知识规则控制。 2.提出一种基于兵棋推演的战场态势分析方法，包括静态态势分析、实时态势分析和超实时态势分析。静态态势评估：利用均值漂移算法对地图的关键地形聚类，将战场分割成多个区域，分析这些区域间的连接关系可制定不同的机动方案。实时态势评估：提出一种量化单元格价值的方法，结合算子行动意图，计算单元格对行动意图的作战价值，选择作战价值最高单元格为最优目标点。超实时态势评估：分析敌方作战意图，结合静态态势评估中战场分割的结果和实时态势评估中生成最优目标点的方法，建立敌方可能位置点的集合，考虑集合中所有敌方位置情况，通过并行仿真搜索，预测战场态势。 3.提出一种基于兵棋推演的蒙特卡洛搜索初值优化算法。对比蒙特卡洛搜索和蒙特卡洛树搜索，分析蒙特卡洛搜索的缺点以及这些缺点的成因，结合兵棋推演的具体情况，改进了蒙特卡洛搜索。该算法结合了UCB公式和蒙特卡洛搜索，同时引入神经网络初始化UCB参数，通过UCB参数传递子节点的价值信息指导蒙特卡洛搜索。同时，神经网络根据蒙特卡洛搜索的结果学习新的经验知识，不断更新迭代。 4.设计了两款基于兵棋推演的强化学习AI。一款采用蒙特卡洛搜索初值优化算法，另一款采用Deep-Sarsa算法。通过迭代训练，基于蒙特卡洛搜索初值优化算法的AI以90%的胜率击败了以“CASIA-先知V1.0”为原型仿制的知识规则AI。基于Deep-Sarsa算法的AI同样以90%的胜率击败了“人机对抗全国挑战赛”中的亚军AI。
语种	中文
页码	101
源URL	[http://ir.ia.ac.cn/handle/173211/23928]
专题	毕业生_硕士学位论文
推荐引用方式 GB/T 7714	谢阳. 学习型群体博弈策略及其在兵棋推演中的应用[D]. 中国科学院自动化研究所. 中国科学院大学. 2019.

入库方式： OAI收割

来源：自动化研究所

浏览0

下载0

收藏0

其他版本

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。