中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
基于终端诱导强化学习的航天器轨道追逃博弈

文献类型:期刊论文

作者耿远卓; 袁利; 黄煌; 汤亮
刊名自动化学报
出版日期2023
卷号49期号:5页码:974-984
关键词航天器追逃 智能博弈 近端策略优化 奖励函数设计 终端诱导
ISSN号0254-4156
DOI10.16383/j.aas.c220204
英文摘要针对脉冲推力航天器轨道追逃博弈问题,提出一种基于强化学习的决策方法,实现追踪星在指定时刻抵近至逃逸星的特定区域,其中两星都具备自主博弈能力.首先,充分考虑追踪星和逃逸星的燃料约束、推力约束、决策周期约束、运动范围约束等实际约束条件,建立锥形安全接近区及追逃博弈过程的数学模型;其次,为了提升航天器面对不确定博弈对抗场景的自主决策能力,以近端策略优化(Proximal policy optimization, PPO)算法框架为基础,采用左右互搏的方式同时训练追踪星和逃逸星,交替提升两星的决策能力;在此基础上,为了在指定时刻完成追逃任务,提出一种终端诱导的奖励函数设计方法,基于CW (Clohessy Wiltshire)方程预测两星在终端时刻的相对误差,并将该预测误差引入奖励函数中,有效引导追踪星在指定时刻进入逃逸星的安全接近区.与现有基于当前误差设计奖励函数的方法相比,所提方法能够有效提高追击成功率.最后,通过与其他学习方法仿真对比,验证提出的训练方法和奖励函数设计方法的有效性和优越性.
源URL[http://ir.ia.ac.cn/handle/173211/56148]  
专题自动化研究所_学术期刊_自动化学报
推荐引用方式
GB/T 7714
耿远卓,袁利,黄煌,等. 基于终端诱导强化学习的航天器轨道追逃博弈[J]. 自动化学报,2023,49(5):974-984.
APA 耿远卓,袁利,黄煌,&汤亮.(2023).基于终端诱导强化学习的航天器轨道追逃博弈.自动化学报,49(5),974-984.
MLA 耿远卓,et al."基于终端诱导强化学习的航天器轨道追逃博弈".自动化学报 49.5(2023):974-984.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。