基于混合更新Q值的深度强化学习方法研究
文献类型:学位论文
作者 | 李主南![]() |
答辩日期 | 2020-05-21 |
文献子类 | 硕士 |
授予单位 | 中国科学院大学 |
授予地点 | 中国科学院自动化研究所 |
导师 | 侯新文 |
关键词 | 深度强化学习 Q 学习算法 过估计 欠估计 Actor-Critic 凸组合 混合更新 |
学位名称 | 工程硕士 |
学位专业 | 计算机技术 |
英文摘要 | 近年来,随着算力和数据的爆发式增长,掀起了人工智能相关领域的研究与应用热潮,深度强化学习也因此成为了一个研究热点。在深度强化学习领域,不管是基于值的方法,还是基于策略梯度的方法,都会涉及到 Q 值的估计更新问题。目前,绝大部分方法都是利用 Q 学习方式来更新目标,然而这种方式会产生过估计问题。因此,有必要提出一种新的更新 Q 值方法来扩展现有方法。 |
学科主题 | 人工智能 |
语种 | 中文 |
页码 | 88 |
源URL | [http://ir.ia.ac.cn/handle/173211/39162] ![]() |
专题 | 智能系统与工程 |
推荐引用方式 GB/T 7714 | 李主南. 基于混合更新Q值的深度强化学习方法研究[D]. 中国科学院自动化研究所. 中国科学院大学. 2020. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。