中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
基于演化学习与对手策略的不完美信息博弈算法研究

文献类型:学位论文

作者张蒙
答辩日期2021-06-03
文献子类硕士
授予单位中国科学院自动化研究所
授予地点中国科学院自动化研究所
导师兴军亮
关键词不完美信息博弈 德州扑克 演化学习 在线对手建模 种群策略集成
学位专业模式识别与智能系统
英文摘要

近年来,由于计算机计算能力和存储空间的不断提升以及各类数据的爆炸式增长,使得深度学习这种具有强大数据拟合能力的方法在语音识别、图像理解和自然语言处理等领域取得突破性进展,成功推动人工智能(Artificial Intelligence,AI)领域研究由智能任务向认知任务的跨越。深度强化学习方法在围棋博弈领域取得了重大突破并成功打败人类顶尖选手,为完美信息场景下的博弈决策问题提供了有效的方法指导,而智能体如何在所处状态信息不完全已知的情况下做出合理决策是目前AI领域面临的核心问题。

以德州扑克为代表的大规模不完美信息博弈是现实世界中极为常见的一种博弈类型。近年来,国际上以美国卡耐基梅隆大学和加拿大阿尔伯塔大学为代表的研究机构围绕德州扑克这一大规模不完美信息博弈问题的优化求解取得了长足进步。但是,已有算法的相关技术实现细节并未完全公开,其核心技术仍被这些国外研究机构垄断,领域内缺乏与现有方法进行比较的公开基准,这极大阻碍了该领域的进一步发展。另外在算法层面,现有以求解纳什均衡策略为目标的主流德州扑克AI算法存在依赖博弈树模型、算力消耗大、策略过于保守等问题,导致智能体在面对不同对手时无法最大化自身收益。为解决上述问题,本文同时从平台构建和算法创新两个方面开展研究工作:

  1. OpenHoldem平台构建及内置AI研发

针对大规模不完美信息博弈研究领域缺少基准的问题,本文构建了以德州扑克为验证环境的大规模不完美信息博弈开放平台OpenHoldem,以便进行大规模不完美信息博弈算法之间的性能对比。该平台包含统一的不完美信息博弈算法性能评价指标、开放的且具有较高性能的不完美信息博弈AI程序、以及一个可供AI之间性能评估的在线对抗平台。OpenHoldem平台于2020年11月7日以网站(holdem.ia.ac.cn)的形式对外开放,吸引了来自于高校、研究所、互联网企业等200多家单位的400多名注册用户,受到了国内多家媒体的报道。该平台的构建能够吸引更多研究者在该领域展开研究,有助于促进不完美信息博弈相关研究问题的进一步发展。

  1. 演化学习驱动的对手建模与策略集成框架研究

为了解决传统纳什均衡策略无法最大化自身收益的问题,本文提出了一种轻量高效且能快速适应对手策略变化进而剥削对手的不完美信息博弈求解框架。该框架将演化学习方法和深度神经网络相结合,通过在线对手风格建模和种群策略集成使智能体能够适应对手策略的变化。本框架具体分为智能体离线训练和在线博弈两个阶段:1)离线训练阶段通过对智能体进行种群演化训练,得到能够剥削不同博弈风格对手的策略神经网络;2)在线博弈阶段智能体通过挖掘历史交互信息来建模未知风格对手,最终利用种群策略集成的方法来适应并最大化剥削对手。在两人无限注德州扑克环境中的实验结果表明,在面对动态对手策略时本框架与已有方法相比能够大幅提升博弈性能。

语种中文
页码91
源URL[http://ir.ia.ac.cn/handle/173211/44862]  
专题智能系统与工程
推荐引用方式
GB/T 7714
张蒙. 基于演化学习与对手策略的不完美信息博弈算法研究[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2021.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。