中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
双足机器人步态生成的研究

文献类型:学位论文

作者崔凌志
答辩日期2024-05-16
文献子类硕士
关键词请双足机器人控制 混合零动力 轨迹自由强化学习 周期性步态奖励机制 动态步态优化 模型融合策略
英文摘要

双足机器人技术作为机器人研究领域的一个重要分支,因其能够模仿人类行为,在多种场景中展示出独特优势,如工业应用、军事操作以及危险环境探索等,已引起了广泛关注。特别是步态生成作为双足机器人研究的核心,一直是科研工作的焦点。然而,传统的步态生成方法,例如基于混合零动力学(HZD)的控制策略,主要依赖于预设轨迹和模型,在面对未知环境时表现出局限性,且需要进行繁琐的手动调参过程。

近年来,深度强化学习(DRL)的兴起为解决这些挑战提供了新的思路。DRL能够通过与环境的交互自主学习控制策略,为处理未知环境和动态调整步态提供了新的可能性。然而,DRL在实际应用中也面临着学习效率低、初始稳定性不足等挑战。鉴于此,本文针对传统步态生成方法的限制及现有DRL研究的优缺点,提出了以下两点主要改进:


(1)创新的网络架构:现有应用于强化学习的训练网络主要采用单纯的前馈或LSTM架构,虽然处理速度有优势,但在处理复杂的时序依赖和动态环境适应性方面存在局限性。针对这一挑战,我们提出了一种结合长短期记忆(LSTM)和Transformer注意力机制的创新网络架构。这一混合架构的设计旨在深化网络对时间序列数据的处理能力,同时通过注意力机制更加精准地捕捉和强调关键时刻的信息,从而为双足机器人步态控制策略的学习和优化提供强大的支持。通过智能化地优化奖励函数权重,这种结构不仅能够增强模型对复杂动态环境的适应性,还能提升其对控制策略微妙变化的敏感度,显著提高了步态生成任务的学习效率和动作调整的准确性。

(2)混合零动力学(HZD)理论激励的周期步态奖励框架:在深度强化学习领域,主流的奖励函数框架主要包括基于预设轨迹的学习和无轨迹强化学习两种方式。基于轨迹的方法虽然为学习过程提供了清晰的目标和较高的稳定性,但在适应性和灵活性方面存在不足。相比之下,无轨迹强化学习通过鼓励自我探索,提高了系统的适应性和创新潜力,但也面临着学习效率低下和初始稳定性不足的挑战。为了结合这两种方法的优势,本研究提出了一种基于混合零动力学(HZD)理论激励的周期步态奖励框架。该框架通过整合HZD理论到奖励设计中,旨在引导强化学习过程向着更稳定、高效的动态步态进展,增强机器人对复杂地形的自适应能力。该奖励框架的创新之处在于,它基于步态的自然周期性特征,并利用HZD提供的理论支持,结合周期性奖励设计,使学习过程更加符合物理动力学原理,同时保持学习过程的灵活性,从而有效地克服了传统方法的局限性和当前深度强化学习工作的不足。
 

语种中文
页码86
源URL[http://ir.ia.ac.cn/handle/173211/57660]  
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
崔凌志. 双足机器人步态生成的研究[D]. 2024.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。