中国科学院机构知识库网格系统: 两人零和博弈中的对抗学习与适应算法研究

中国科学院机构知识库网格

Chinese Academy of Sciences Institutional Repositories Grid

两人零和博弈中的对抗学习与适应算法研究

文献类型：学位论文


作者	吴哲
答辩日期	2022-05-18
文献子类	硕士
授予单位	中国科学院自动化研究所
授予地点	中国科学院自动化研究所
导师	兴军亮
关键词	机器博弈两人零和博弈纳什均衡对手建模元学习
学位专业	模式识别与智能系统
英文摘要	机器博弈的目标是设计出在复杂博弈环境中能够自主思考和决策的智能体。这是一个快速发展的交叉学科研究领域，持续吸收着来自博弈论、心理学、强化学习、深度学习等领域的最新进展。两人零和博弈作为机器博弈的基本模型，由于其较强的可解释性以及普遍的适用性，一直是人工智能研究的重要问题。围绕两人零和博弈所开展的一系列研究近年来在围棋、德州扑克等问题中取得了里程碑式的突破。尽管如此，在高复杂、强对抗的环境中设计出具有适应性的高效学习算法依然是两人零和博弈问题中的关键挑战之一。本论文从环境构建和算法创新两个方面针对两人零和博弈中的对抗学习与适应问题进行了系统性地研究。本文的主要贡献总结如下： 1.在博弈环境搭建方面，本论文针对两人零和博弈构建了一套涵盖离散动作空间和连续动作空间的通用训练、评估平台。该环境克服了现有基准缺乏高性能算法实现以及对两人博弈设定缺乏支持的局限，并配套了丰富的基线算法和完善的评估指标。 2.在博弈算法设计方面，针对现有方法中均衡求解法存在策略过于保守，无法保证收益最大化以及对手建模方法存在建模困难、策略泛化性差的弊端，本论文重点关注两人零和博弈中的适应性算法研究。本论文首先提出了两种风格多样化的对手策略生成方案。在此基础上，受元学习思想启发，本文提出一种适应性算法训练框架。该框架使用元策略更新方法，能够针对当前对手类型调整元模型的网络权重以完成快速适应。 3. 本论文在离散动作空间与连续动作空间下的多类复杂对抗场景中进行了详尽测试，并进行了各个模块的消融实验与分析。大量实验结果表明，本论文所提算法能够有效克服现有方法的弊端，实现针对未知风格对手的快速适应，从而为两人零和博弈收益最大化求解提供了一种新思路。
语种	中文
页码	90
源URL	[http://ir.ia.ac.cn/handle/173211/48778]
专题	毕业生_硕士学位论文智能系统与工程
推荐引用方式 GB/T 7714	吴哲. 两人零和博弈中的对抗学习与适应算法研究[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2022.

入库方式： OAI收割

来源：自动化研究所

浏览0

下载0

收藏0

其他版本

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。