机器人持续性策略学习算法研究
文献类型:学位论文
作者 | 熊方舟![]() |
答辩日期 | 2020-05 |
文献子类 | 博士 |
授予单位 | 中国科学院大学 |
授予地点 | 中国科学院自动化研究所 |
导师 | 刘智勇 |
关键词 | 持续学习 策略学习 机器人 灾难性遗忘 状态基元 |
学位专业 | 模式识别与智能系统 |
英文摘要 | 近年来,随着社会经济的快速发展,人工智能广泛地应用于各行各业,受到了人们越来越多的关注。人工智能通过对人类的思维活动以及行为进行模拟,旨在实现具备人类智能水平的智能系统。人工神经网络凭借其强大的学习规则的能力被广泛地用于人工智能的研究中。然而当外界环境发生变化时,现有的人工神经网络很难像人类一样的快速适应并进行自主学习。事实上,人工神经网络依次学习不同的任务时会遗忘之前已经学会的任务,这被称为“灾难性遗忘”。当机器人对不同的任务进行策略学习时,也会发生这种现象。本文利用持续学习的方法,对机器人任务的策略进行研究,使得机器人在多任务的序贯式学习过程中既能学会新任务又不会遗忘之前的任务,具备一定程度的持续学习能力。本文基于不同的持续学习场景对机器人任务进行学习,从多回合任务学习、多情况任务学习和多任务学习三个方面对机器人的持续性策略学习问题开展了研究,主要工作和创新点归纳如下: 1.提出了一种融合状态池更新的贝叶斯Q学习算法。 2.提出了一种融合弹性权重巩固的机器人多情况持续学习算法。 3.提出了一种基于状态基元和策略学习的持续学习算法。 4.提出了一种基于状态基元学习的多任务持续学习框架。 |
语种 | 中文 |
页码 | 140 |
源URL | [http://ir.ia.ac.cn/handle/173211/39077] ![]() |
专题 | 自动化研究所_复杂系统管理与控制国家重点实验室_机器人应用与理论组 |
推荐引用方式 GB/T 7714 | 熊方舟. 机器人持续性策略学习算法研究[D]. 中国科学院自动化研究所. 中国科学院大学. 2020. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。