采用分类经验回放的深度确定性策略梯度方法
文献类型:期刊论文
作者 | 时圣苗; 刘全 |
刊名 | 自动化学报
![]() |
出版日期 | 2022 |
卷号 | 48期号:7页码:1816-1823 |
关键词 | 连续控制任务 深度确定性策略梯度 经验回放 分类经验回放 |
ISSN号 | 0254-4156 |
DOI | 10.16383/j.aas.c190406 |
英文摘要 | 深度确定性策略梯度(Deep deterministic policy gradient, DDPG)方法在连续控制任务中取得了良好的性能表现.为进一步提高深度确定性策略梯度方法中经验回放机制的效率,提出分类经验回放方法,并采用两种方式对经验样本分类:基于时序差分误差样本分类的深度确定性策略梯度方法 (DDPG with temporal difference-error classification, TDCDDPG)和基于立即奖赏样本分类的深度确定性策略梯度方法 (DDPG with reward classification, RC-DDPG).在TDCDDPG和RC-DDPG方法中,分别使用两个经验缓冲池,对产生的经验样本按照重要性程度分类存储,网络模型训练时通过选取较多重要性程度高的样本加快模型学习.在连续控制任务中对分类经验回放方法进行测试,实验结果表明,与随机选取经验样本的深度确定性策略梯度方法相比, TDC-DDPG和RC-DDPG方法具有更好的性能. |
源URL | [http://ir.ia.ac.cn/handle/173211/56328] ![]() |
专题 | 自动化研究所_学术期刊_自动化学报 |
推荐引用方式 GB/T 7714 | 时圣苗,刘全. 采用分类经验回放的深度确定性策略梯度方法[J]. 自动化学报,2022,48(7):1816-1823. |
APA | 时圣苗,&刘全.(2022).采用分类经验回放的深度确定性策略梯度方法.自动化学报,48(7),1816-1823. |
MLA | 时圣苗,et al."采用分类经验回放的深度确定性策略梯度方法".自动化学报 48.7(2022):1816-1823. |
入库方式: OAI收割
来源:自动化研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。