基于终端诱导强化学习的航天器轨道追逃博弈
文献类型:期刊论文
作者 | 耿远卓; 袁利; 黄煌; 汤亮 |
刊名 | 自动化学报
![]() |
出版日期 | 2023 |
卷号 | 49期号:5页码:974-984 |
关键词 | 航天器追逃 智能博弈 近端策略优化 奖励函数设计 终端诱导 |
ISSN号 | 0254-4156 |
DOI | 10.16383/j.aas.c220204 |
英文摘要 | 针对脉冲推力航天器轨道追逃博弈问题,提出一种基于强化学习的决策方法,实现追踪星在指定时刻抵近至逃逸星的特定区域,其中两星都具备自主博弈能力.首先,充分考虑追踪星和逃逸星的燃料约束、推力约束、决策周期约束、运动范围约束等实际约束条件,建立锥形安全接近区及追逃博弈过程的数学模型;其次,为了提升航天器面对不确定博弈对抗场景的自主决策能力,以近端策略优化(Proximal policy optimization, PPO)算法框架为基础,采用左右互搏的方式同时训练追踪星和逃逸星,交替提升两星的决策能力;在此基础上,为了在指定时刻完成追逃任务,提出一种终端诱导的奖励函数设计方法,基于CW (Clohessy Wiltshire)方程预测两星在终端时刻的相对误差,并将该预测误差引入奖励函数中,有效引导追踪星在指定时刻进入逃逸星的安全接近区.与现有基于当前误差设计奖励函数的方法相比,所提方法能够有效提高追击成功率.最后,通过与其他学习方法仿真对比,验证提出的训练方法和奖励函数设计方法的有效性和优越性. |
源URL | [http://ir.ia.ac.cn/handle/173211/56148] ![]() |
专题 | 自动化研究所_学术期刊_自动化学报 |
推荐引用方式 GB/T 7714 | 耿远卓,袁利,黄煌,等. 基于终端诱导强化学习的航天器轨道追逃博弈[J]. 自动化学报,2023,49(5):974-984. |
APA | 耿远卓,袁利,黄煌,&汤亮.(2023).基于终端诱导强化学习的航天器轨道追逃博弈.自动化学报,49(5),974-984. |
MLA | 耿远卓,et al."基于终端诱导强化学习的航天器轨道追逃博弈".自动化学报 49.5(2023):974-984. |
入库方式: OAI收割
来源:自动化研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。