双足机器人步态生成的研究
文献类型:学位论文
作者 | 崔凌志![]() |
答辩日期 | 2024-05-16 |
文献子类 | 硕士 |
关键词 | 请双足机器人控制 混合零动力 轨迹自由强化学习 周期性步态奖励机制 动态步态优化 模型融合策略 |
英文摘要 | 双足机器人技术作为机器人研究领域的一个重要分支,因其能够模仿人类行为,在多种场景中展示出独特优势,如工业应用、军事操作以及危险环境探索等,已引起了广泛关注。特别是步态生成作为双足机器人研究的核心,一直是科研工作的焦点。然而,传统的步态生成方法,例如基于混合零动力学(HZD)的控制策略,主要依赖于预设轨迹和模型,在面对未知环境时表现出局限性,且需要进行繁琐的手动调参过程。 近年来,深度强化学习(DRL)的兴起为解决这些挑战提供了新的思路。DRL能够通过与环境的交互自主学习控制策略,为处理未知环境和动态调整步态提供了新的可能性。然而,DRL在实际应用中也面临着学习效率低、初始稳定性不足等挑战。鉴于此,本文针对传统步态生成方法的限制及现有DRL研究的优缺点,提出了以下两点主要改进:
(2)混合零动力学(HZD)理论激励的周期步态奖励框架:在深度强化学习领域,主流的奖励函数框架主要包括基于预设轨迹的学习和无轨迹强化学习两种方式。基于轨迹的方法虽然为学习过程提供了清晰的目标和较高的稳定性,但在适应性和灵活性方面存在不足。相比之下,无轨迹强化学习通过鼓励自我探索,提高了系统的适应性和创新潜力,但也面临着学习效率低下和初始稳定性不足的挑战。为了结合这两种方法的优势,本研究提出了一种基于混合零动力学(HZD)理论激励的周期步态奖励框架。该框架通过整合HZD理论到奖励设计中,旨在引导强化学习过程向着更稳定、高效的动态步态进展,增强机器人对复杂地形的自适应能力。该奖励框架的创新之处在于,它基于步态的自然周期性特征,并利用HZD提供的理论支持,结合周期性奖励设计,使学习过程更加符合物理动力学原理,同时保持学习过程的灵活性,从而有效地克服了传统方法的局限性和当前深度强化学习工作的不足。 |
语种 | 中文 |
页码 | 86 |
源URL | [http://ir.ia.ac.cn/handle/173211/57660] ![]() |
专题 | 毕业生_硕士学位论文 |
推荐引用方式 GB/T 7714 | 崔凌志. 双足机器人步态生成的研究[D]. 2024. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。