中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
基于强化学习的机器人操作策略表征与学习

文献类型:学位论文

作者杨依明
答辩日期2024-05-19
文献子类博士
关键词强化学习 机器人操作 机器人控制 策略表征
英文摘要

近年来强化学习在机器人领域的研究与应用受到了广泛的关注。与模仿学习等其它机器人策略学习方法不同,强化学习允许机器人智能体通过与环境的自主交互来学习和优化策略,不需要明确的监督信号即可从过往经验中不断调整和改进自身的行为决策。这种学习模式使得机器人能够在非结构化环境中持续获得性能提升,在复杂多变的环境下更好更快地完成任务。而机器人操作策略的表征与学习作为机器人从感知智能迈向认知智能的关键一环,更是天然契合强化学习自主能动的闭环学习特性。

然而现有基于强化学习的机器人操作策略研究往往没有与机器人任务本身的独特性相结合。机器人操作脱胎于人类操作,机器人本体和操作任务本身往往具备鲜明的仿生特性,相应的任务大多也能被人类所执行。因此如果在设计机器人操作策略时能借鉴人脑在执行操作任务时对观测到的时空耦合信息的处理能力、多脑区协同机制以及完成操作任务时脑神经对人手的控制方法,就能使机器人操作策略具备更为合理的归纳偏置,事半功倍。鉴于此,本论文采取强化学习为主要方法,充分借鉴人类执行操作任务时的认知行为机制,深刻考虑机器人任务的固有属性,致力于在多样化的任务环境中探究与完善机器人的策略表征和学习算法,以期提高机器人操作策略的整体性能。
本论文主要研究内容如下:

  • 高效稳健的控制器是机器人实现后续操作任务的前提,为此本文提出时空变压器网络,通过在变压器结构中交替引入时间注意力和空间注意力机制并在多头注意力中加入相关性编码,增强了机器人控制策略对时空观测信息的关联建模和表征能力。现有基于变压器结构的强化学习策略表征无法很好地同时兼顾观测序列中时间信息和空间信息的提取,继而忽略了观测序列在时间和空间维度上的耦合关系,导致策略学习的偏差和数据利用效率低下。时空变压器网络通过在变压器结构中交替引入时间注意力和空间注意力机制,增强了策略网络对时空观测信息的关联建模和表征能力。此外,本研究在多头注意力中加入相关性编码,为时空变压器网络处理机器人时空观测信息提供了有效的归纳偏置。在多个仿真机器人环境中的实验表明,本研究提出的时空变压器方法在策略性能和数据效率方面,显著优于现有的基于变压器的强化学习方法,且本研究中引入的时空注意力和相关性编码具有明显的协同作用。
  • 机器人观测的时空耦合信息在操作任务中同样重要,因此我们借鉴生物神经系统在精准操作中处理时空信息的多脑区协同工作机制对机器人操作策略表征进行了建模,提出了一种基于脉冲神经网络的仿多脑区协同精准操作方法。该方法模拟了人脑多脑区协同处理复杂任务的机制。首先根据人类海马体、小脑和前额叶皮质中神经元连接特性,为各仿脑区模块设计了独特的网络结构,并以此模拟海马体的记忆功能、小脑的运动控制功能和前额叶皮质的认知规划功能。随后根据人类在精准操作任务中的多脑区协同机制,设计了仿海马体、仿小脑和仿前额叶皮质三个网络的协作方案,实现了真实机器人上的高效精准轴孔装配策略。这种仿生表示增强了机器人策略网络的时空信息处理和决策能力,为网络的监督学习和强化学习训练提供了有效的归纳偏置,仿真和真实机器人上的实验结果证明了该方法在机器人精准操作中的实用性和高效性。
  • 除了具备先进的大脑,人类能够高效完成操作任务的另一个原因在于灵巧的双手。但高自由度和强关节耦合的灵巧手为机器人操作任务策略学习带来了困难。为此,我们提出使用仿生结构动作图来表征仿生手的动作空间,通过借鉴人手的神经控制机制,充分考虑仿生手关节间的运动约束和操作特性,使策略表征更加自然有效。同时,本研究还利用从全状态观测中提取的专家策略作为特权信息来指导部分观测下机器人智能体的学习,提出特权专家策略引导的强化学习算法,克服了非结构化视觉观测导致的强化学习算法训练困难的问题。此外,本研究还在理论上推导并证明了这种仿生策略表示与学习算法的有效性。然后在抓取、使用工具、开关门等一系列仿生手操作任务的仿真实验中,证实了特权专家策略引导的强化学习算法在学习效率和操作性能方面的优越性。实验结果证实了本文提出的算法能够显著加快机器人双仿生灵巧手操作任务的学习速度,同时获得更高的任务成功率。
学科主题控制理论
语种中文
页码126
源URL[http://ir.ia.ac.cn/handle/173211/56638]  
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
杨依明. 基于强化学习的机器人操作策略表征与学习[D]. 2024.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。