中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
基于深度强化学习的游戏智能决策

文献类型:学位论文

作者邵坤
答辩日期2019-05-22
文献子类博士
授予单位中国科学院大学
授予地点中国科学院自动化研究所
导师赵冬斌
关键词深度强化学习 深度学习 强化学习 智能决策 游戏人工智能 多智能体系统
学位名称工学博士学位
学位专业控制理论与控制工程
英文摘要

人工智能(Artificial Intelligence, AI)的研究在近几年取得了巨大的进展。游戏作为人工智能合适的研究平台,吸引了众多研究人员测试新的算法和模型。游戏的智能决策是一个具有挑战性的研究领域,复杂条件下的游戏决策需要在不断地预测和评估中探索可行的策略。此外,游戏中的数据具有海量、高维、抽象的特点。将这些数据有效地表示并提取特征加以利用,从而制定出最优策略,是获胜的关键。与此同时,增强智能体对复杂游戏环境的理解认知与决策能力,是游戏智能决策的核心内容。在游戏人工智能中,感知和决策能力都是衡量一个智能体所蕴含智能的指标。以深度强化学习(Deep Reinforcement Learning, DRL)为代表的机器学习技术的快速发展,为游戏的智能决策提供了新的解决思路。近年来,基于深度强化学习的智能体在各类游戏中取得了令人瞩目的研究成果。从二维完全信息单智能体游戏,到三维不完全信息多智能体游戏,深度强化学习在这些游戏场景中都达到了人类玩家水平,并在围棋、星际争霸和刀塔(Dota2)等游戏中击败了顶尖职业选手。与此同时,以深度Q网络(Deep Q Network, DQN)和异步优势执行-评价(Asynchronous Advantage Actor-Critic, A3C)为代表的深度强化学习算法在基础理论和实际应用方面也都得到了进一步发展。

本文在综述游戏智能决策和深度强化学习研究现状的基础上,首先从完全信息单智能体棋类游戏出发,研究五子棋的落子预测;进而针对不完全信息单智能体感知决策问题,研究第一人称视角三维射击游戏的端到端决策控制;然后针对复杂动态环境中的多智能体学习控制问题,研究即时战略游戏星际争霸中多单元微操控制;最后针对完全合作下的多智能体信誉分配问题,研究抓捕游戏中多智能体的协同决策。

本文的主要工作和创新点包含如下几个方面:

1.在完全信息棋类游戏上,针对五子棋博弈问题,提出了五子棋落子预测模型,采用深度学习方法实现完全信息博弈状态下的五子棋落子预测。设计高效的网络模型和超参数,在五子棋数据集中达到了专业水平的预测准确率,验证了深度卷积神经网络对于棋谱数据的表征能力。

2. 在第一人称视角三维射击游戏上,针对高维图像输入和不完全信息问题,提出面向第一人称视角游戏的执行-评价深度强化学习端到端感知决策模型。通过融合多帧输入与历史时刻决策信息,解决部分可观测问题,同时利用并行多线程机制,训练智能体在多个游戏环境中优化决策,实现深度强化学习的稳步更新。最后在第一人称视角射击游戏的视觉导航和战斗射击任务中验证了所提方法的性能。

3. 在不完全信息多智能体即时战略游戏上,针对多单元协同决策和多场景泛化问题,提出结合课程迁移学习的共享参数多智能体强化学习算法,成功训练星际争霸微操单元战胜游戏内置智能体。针对复杂的状态空间,设计一种高效的状态表示方法来减小状态空间的维度,针对游戏中场景多样、单元种类繁多的问题,提出迁移学习预训练以及渐进式课程学习,提高学习速率和学习效果。最后在不同类型的微操场景中对比验证了所提方法的性能。

4. 在第一人称视角不完全信息多智能体游戏上,针对完全合作多智能体间的信誉分配问题,提出反事实回报深度强化学习方法。通过计算智能体采取其他动作导致的回报差异,进而确定每个智能体对于全局回报的贡献程度,有效解决了多智能体间的信誉分配问题。最后在不同大小迷宫场景中训练基于反事实回报的深度强化学习智能体,实现了深度强化学习方法在多智能体游戏上端到端的感知决策,验证了所提方法的有效性。

学科主题自动控制技术
语种中文
页码122
DOI标识
URL标识查看原文
源URL[http://ir.ia.ac.cn/handle/173211/23946]  
专题复杂系统管理与控制国家重点实验室_深度强化学习
推荐引用方式
GB/T 7714
邵坤. 基于深度强化学习的游戏智能决策[D]. 中国科学院自动化研究所. 中国科学院大学. 2019.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。