中国科学院机构知识库网格系统: 基于终端诱导强化学习的航天器轨道追逃博弈

中国科学院机构知识库网格

Chinese Academy of Sciences Institutional Repositories Grid

基于终端诱导强化学习的航天器轨道追逃博弈

文献类型：期刊论文


作者	耿远卓; 袁利; 黄煌; 汤亮
刊名	自动化学报
出版日期	2023
卷号	49 期号:5 页码:974-984
关键词	航天器追逃智能博弈近端策略优化奖励函数设计终端诱导
ISSN号	0254-4156
DOI	10.16383/j.aas.c220204
英文摘要	针对脉冲推力航天器轨道追逃博弈问题,提出一种基于强化学习的决策方法,实现追踪星在指定时刻抵近至逃逸星的特定区域,其中两星都具备自主博弈能力.首先,充分考虑追踪星和逃逸星的燃料约束、推力约束、决策周期约束、运动范围约束等实际约束条件,建立锥形安全接近区及追逃博弈过程的数学模型;其次,为了提升航天器面对不确定博弈对抗场景的自主决策能力,以近端策略优化(Proximal policy optimization, PPO)算法框架为基础,采用左右互搏的方式同时训练追踪星和逃逸星,交替提升两星的决策能力;在此基础上,为了在指定时刻完成追逃任务,提出一种终端诱导的奖励函数设计方法,基于CW (Clohessy Wiltshire)方程预测两星在终端时刻的相对误差,并将该预测误差引入奖励函数中,有效引导追踪星在指定时刻进入逃逸星的安全接近区.与现有基于当前误差设计奖励函数的方法相比,所提方法能够有效提高追击成功率.最后,通过与其他学习方法仿真对比,验证提出的训练方法和奖励函数设计方法的有效性和优越性.
源URL	[http://ir.ia.ac.cn/handle/173211/56148]
专题	自动化研究所_学术期刊_自动化学报
推荐引用方式 GB/T 7714	耿远卓,袁利,黄煌,等. 基于终端诱导强化学习的航天器轨道追逃博弈[J]. 自动化学报,2023,49(5):974-984.
APA	耿远卓,袁利,黄煌,&汤亮.(2023).基于终端诱导强化学习的航天器轨道追逃博弈.自动化学报,49(5),974-984.
MLA	耿远卓,et al."基于终端诱导强化学习的航天器轨道追逃博弈".自动化学报 49.5(2023):974-984.

入库方式： OAI收割

来源：自动化研究所

浏览0

下载0

收藏0

其他版本

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。