博弈对抗环境中智能策略研究
文献类型:学位论文
作者 | 唐振韬![]() |
答辩日期 | 2021-05-17 |
文献子类 | 博士 |
授予单位 | 中国科学院自动化研究所 |
授予地点 | 北京 |
导师 | 赵冬斌 |
关键词 | 深度强化学习 统计前向规划 策略博弈 智能决策 游戏人工智能 |
学位名称 | 工学博士 |
学位专业 | 控制理论与控制工程 |
英文摘要 | 策略博弈是反映人工智能“智能化”水平的重要体现,一直受到研究人员的广泛关注。博弈过程需要对当前状态进行态势评估,依据态势评估信息推演出的可能性收益来做决策。作为当下主流的两类通用人工智能决策规划算法:深度强化学习和统计前向规划算法,已经在游戏人工智能领域中取得了令人瞩目的研究成果。深度强化学习方法融合了深度学习的感知能力和强化学习的决策能力,以最大化环境奖赏信号作为优化目标,实现端到端方式的决策模型更新。统计前向规划算法则是融合人类启发式先验知识构建前向模型,基于前向模型在推理环境中自适应探索并规划出高价值的动作序列作为博弈决策。为有效利用二者优势,基于深度强化学习与统计前向规划方法,研究博弈对抗环境中智能策略方法和实现技术,以进一步提高博弈策略模型表现,对于提升机器博弈性能,推动智能决策技术在专业领域的应用,具有重要的理论意义和应用价值。 |
语种 | 中文 |
页码 | 160 |
源URL | [http://ir.ia.ac.cn/handle/173211/45058] ![]() |
专题 | 复杂系统管理与控制国家重点实验室_深度强化学习 |
推荐引用方式 GB/T 7714 | 唐振韬. 博弈对抗环境中智能策略研究[D]. 北京. 中国科学院自动化研究所. 2021. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。