多机器人编队协同路径规划方法研究
文献类型:学位论文
作者 | 眭泽智![]() |
答辩日期 | 2020-05 |
文献子类 | 博士 |
授予单位 | 中国科学院大学 |
授予地点 | 北京 |
导师 | 易建强 |
关键词 | 多机器人编队 协同路径规划 队形变换 队形保持与协同避碰 深度强化学习 |
学位名称 | 工学博士 |
学位专业 | 控制理论与控制工程 |
英文摘要 | 近年来,各类机器人在军事和民用等各个领域得到了广泛的应用,并显现出巨大的应用价值。随着任务场景越来越多样且作用环境越来越复杂,多机器人编队由于在作用范围、安全保障、任务效率等方面的优势成为了机器人领域的研究热点。作为多机器人编队中诸多关键技术之一,编队协同规划与控制受到了诸多领域科研人员的持续关注。然而,现有大多数研究聚焦于多机器人编队的协同控制与队形保持,虽然有一些学者在多机器人编队协同路径规划领域取得了一定的成果,但仍存在一些典型场景与问题尚未解决。此外,近年来兴起的深度强化学习方法对多机器人编队的协同路径规划问题提供了新的解决思路,但目前相关的研究工作较少。为此,本文就多机器人编队协同中的路径规划问题进行深入研究,针对编队中的队形生成与变换、队形保持与协同避碰两类典型场景,进行问题建模与求解,论文的主要工作和创新点归纳如下: (1)针对多机器人编队的队形生成与变换问题,提出了一种基于粒子群优化算法与匈牙利算法的最优变换策略。该算法通过内环求解编队中若干个体的匹配关系,外环优化队形间的最优偏移量,内外环共同作用实现了全局总路径最短且无碰撞的期望路径生成。在此基础上,针对非质点模型,设计了基于受限人工势场法的多机器人协同路径规划算法,实现了编队整体安全无碰撞的轨迹规划。 (2)针对多机器人编队队形保持与协同避碰问题,研究了基于深度强化学习的编队路径规划方法。对于图像类的数据输入,使用了并行双Q网络结构,设计了一种协同奖励机制,实现了编队内多智能体的协同规划,完成了多机器人受限编队的任务。对于实体状态类的数据输入,提出了基于深度强化学习的多机器人编队队形保持与协同避碰算法,将问题建模为基于复合奖惩函数的马尔科夫决策过程,并通过深度价值网络对机器人行为策略进行训练,实现了动态环境中的队形保持与协同避碰,所提算法相比于现有的方法在成功率与安全保障上都有明显提升。 (3)针对无模型强化学习方法在训练过程中收敛缓慢、探索效率低的问题,研究了基于模型知识和数据训练融合的队形保持与协同避碰方法。提出了基于模型数据引导的队形保持与协同避碰方法,以基于一致性理论与多智能体协同避碰方法的切换系统为示教者,并在强化学习前对该系统进行模仿学习,从而获得有效的初始策略,以提高后续训练效率。此外,设计了基于动态障碍物概念的动作空间过滤器,改善了强化学习中无用动作探索的问题,从安全性以及训练效率两方面提升了原有方法的性能。最后通过对比实验验证了所提方法的有效性与优越性。 (4)针对大规模多机器人编队试验难、条件要求苛刻等实际问题,搭建了面向多机器人编队典型场景的软件在环多无人机仿真系统与地面无人车集群系统,实现了算法的快速演示与验证。在无人车集群系统中,设计了跨平台的规划与控制体系,实现了集群的任意通信组网,并设计了基于超宽带室内定位的虚拟GPS方法。通过所搭建平台,验证了本文所提算法的有效性。 总体而言,本文从队形生成与变换以及队形保持与协同避碰两类典型场景出发,深入研究了队形最优变化策略与基于深度强化学习的队形保持与协同避碰方法及其优化。在此基础上,搭建了面向上述场景的软件在环仿真系统与硬件平台并对所提方法进行了验证,取得了具有重要理论和实际应用价值的研究成果。 |
语种 | 中文 |
页码 | 176 |
源URL | [http://ir.ia.ac.cn/handle/173211/39694] ![]() |
专题 | 自动化研究所_综合信息系统研究中心 |
推荐引用方式 GB/T 7714 | 眭泽智. 多机器人编队协同路径规划方法研究[D]. 北京. 中国科学院大学. 2020. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。