中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
基于自适应动态规划的最优跟踪控制方法研究

文献类型:学位论文

作者王鑫
答辩日期2023-05-23
文献子类博士
关键词自适应动态规划 输出调节 追逃博弈 最优控制 一致性控制
英文摘要

跟踪控制一直以来都是控制领域的关键研究课题之一,在各种实际工程中 有广泛的应用。跟踪控制的主要目的是设计控制律,抵消外部噪声对系统的干 扰,从而使系统输出能无偏差地跟踪目标的参考信号。最优跟踪控制将最优控制 与跟踪控制相结合,其目的是设计相应的最优控制律,使系统能在完成跟踪任务 的同时,最小化具有相应物理意义的代价函数,实现闭环系统的稳定。因此,对于具有不同特性的被控对象设计不同的最优跟踪控制方法,使其能更好地适用于各种实际问题,在理论和实际方面都有非常宝贵的价值。在解决具体的最优控制问题中,动态规划方法作为一种的常用工具,根据预设的代价函数建立相应 的递推公式,利用系统的终端状态逆向计算一系列的优化问题,从而得到系统的 最优控制。但是随着复杂系统的兴起,系统状态和控制向量的维数大幅增加,动态规划中每一步优化问题的求解都变得十分困难,使其适用范围受到了很大的限制。自适应动态规划方法的出现解决了传统动态规划方法中 Hamilton-Jacobi Bellman(HJB) 方程难以计算的问题。该方法的关键在于利用神经网络等近似工具对值函数和控制律进行替代,并通过迭代更新的思想使值函数和控制律随着迭代次数的增加逐渐向最优值函数和最优控制律收敛。然而,通过自适应动态规 划解决各类最优跟踪控制问题的过程中,还留有一些理论和实际问题需要进行 深入探讨。基于此,本文研究并提出了几类最优跟踪控制问题的自适应动态规划方法,主要工作内容及相应的创新点如下:

1. 输出调节是解决输出跟踪问题的常用方法,能在抑制外部扰动的同时保持闭环系统的稳定。针对动力学模型未知且带有不可测扰动的一般线性系统,提出了一种基于离线学习的最优输出调节控制方案,利用状态-输入数据来确定未知的系统方程。同时根据外部系统矩阵的最小多项式来获得输出方程中外部扰动的参数。通过稳定性分析证明了所得到的最优控制律可以使闭环系统稳定。仿真实验表明,在外部干扰存在的情况下系统输出能渐近地跟踪参考信号。

2. 追逃问题可以被视为一类特殊的最优跟踪控制问题。从追捕者视角来看,其主要目的是以博弈框架为基础设计控制策略,使追捕者能最优地对逃跑者进行跟踪。本课题研究了带约束的有限时间非线性系统的追逃问题最优策略,将自适应动态规划方法中策略迭代的思想与 Pontryagin 极大值原理相结合,把原问题分解为两个最优控制问题,设计自博弈迭代算法来获得博弈双方的最优控制策略。在由 Pontryagin 极大值原理构成的哈密顿函数有唯一极值的条件下,证明了该迭代算法所得到的最优策略最终可收敛于博弈的纳什均衡解。通过两种不同情况下的仿真实验验证了所提出方法的有效性。此外,针对本方智能体无法获取对方策略的情况,以模型预测控制为基础设计了新的算法,在能够获取对方当前位置信息的前提下实现了追逃双方的近似最优策略。

3. 研究多智能体系统领导-跟随控制问题的目标是设计一致性协议使每个跟随者实现对领导者状态的跟踪。针对有向拓扑结构下带有随机干扰的线性多智能体系统领导-跟随一致性控制问题,不同于一般方法中基于拓扑结构来设计具有静态耦合权值的控制律。提出一种基于 Riccati 方程的分布式自适应控制器,利用相邻智能体之间的状态误差来更新与增益矩阵相关的耦合权值,使领导者和跟随者之间状态误差的期望渐近收敛到零。此外,通过自适应动态规划中策略迭代的方法,求解出系统的最优反馈控制增益。采用 Lyapunov 直接方法和 Itô 公式证明了闭环系统的稳定性。通过对比实验,验证了所提出方法的优势及有效性。

4. 对于异构多智能体系统,最优输出一致性控制可以实现跟随者对领导者的最优输出跟踪。针对具有不完全信息的异构多智能体系统的最优输出一致性控制问题,在多智能体微分博弈框架下提出了一种基于数据的自适应迭代算法。该方法首先为系统中的每个跟随者构造一个伪系统,从而将多智能体输出调节问题转化为各伪系统的状态稳定问题,通过引入微分图博弈框架来获得相互耦合的多智能体系统的稳定控制。为了求解耦合 HJB 方程,利用自适应动态规划方法中策略迭代的思想设计基于数据的离线强化学习算法,证明了该算法得到的控制律最终使系统收敛到全局纳什均衡。

 

语种中文
页码110
源URL[http://ir.ia.ac.cn/handle/173211/51925]  
专题毕业生_博士学位论文
自动化研究所_复杂系统管理与控制国家重点实验室_智能化团队
推荐引用方式
GB/T 7714
王鑫. 基于自适应动态规划的最优跟踪控制方法研究[D]. 2023.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。