对抗场景中的智能体策略泛化研究
文献类型:学位论文
作者 | 陈皓![]() |
答辩日期 | 2022-05-25 |
文献子类 | 硕士 |
授予单位 | 中国科学院自动化研究所 |
授予地点 | 中国科学院自动化研究所 |
导师 | 黄凯奇 |
关键词 | 深度强化学习 多智能体 策略泛化 Ad-Hoc 协作 信用分配 |
学位名称 | 工学硕士 |
学位专业 | 模式识别与智能系统 |
英文摘要 | 在现实生活中,多智能体系统无处不在。强化学习是处理多智能体问题的常用方法。然而相比单智能体强化学习,多智能体强化学习面临着环境非平稳、信用分配、Ad-Hoc协作等独特的挑战。为了应对上述挑战,多智能体强化学习在近年来取得了以中心化训练分布式执行框架为代表的一系列突破性进展。在中心化训练分布式执行框架框架下,价值函数分解方法通过信用分配网络把每个智能体的本地Q值组合成全局Q值,更好地评价了每个智能体的贡献,实现了更好的合作,在很多极具挑战性的任务上取得了良好的效果。 |
语种 | 中文 |
页码 | 82 |
源URL | [http://ir.ia.ac.cn/handle/173211/48757] ![]() |
专题 | 毕业生_硕士学位论文 自动化研究所_毕业生 中国科学院自动化研究所 智能系统与工程 |
推荐引用方式 GB/T 7714 | 陈皓. 对抗场景中的智能体策略泛化研究[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2022. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。