知识数据混合驱动的策略学习及在兵棋决策中的运用
文献类型:学位论文
作者 | 刘轩![]() |
答辩日期 | 2022-05-17 |
文献子类 | 硕士 |
授予单位 | 中国科学院自动化研究所 |
授予地点 | 中国科学院自动化研究所 |
导师 | 倪晚成 |
关键词 | 复杂对抗环境 认知智能 知识数据混合驱动 状态回溯 分层决策 陆战兵棋 |
学位名称 | 工学硕士 |
学位专业 | 计算机应用技术 |
英文摘要 | 人工智能技术从感知智能逐渐迈进聚焦强智能体理解、推理、决策等能力的认知智能时代。深度神经网络支持下的数据驱动策略学习成为人工智能领域的前沿热点,涌现出AlphaGo,AlphaStar,OpenAI Five, Deepstack等诸多达到甚至超过人类水平的智能体。但复杂对抗环境,尤其是不完美信息复杂对抗环境中的决策问题远未得到解决。复杂对抗环境带来的超高维的状态、动作空间和长时间等导致了巨大的探索空间,需要消耗海量的计算资源;不确定性信息集和稀疏奖励等问题导致了低效的评估体系问题,使得智能体的训练难以向更优策略收敛。 |
语种 | 中文 |
页码 | 99 |
源URL | [http://ir.ia.ac.cn/handle/173211/48801] ![]() |
专题 | 毕业生_硕士学位论文 |
推荐引用方式 GB/T 7714 | 刘轩. 知识数据混合驱动的策略学习及在兵棋决策中的运用[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2022. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。