未知环境下工业机械臂自主路径规划
文献类型:学位论文
作者 | 李振 |
答辩日期 | 2021-05-21 |
授予单位 | 中国科学院沈阳自动化研究所 |
授予地点 | 沈阳 |
导师 | 刘意杨 |
关键词 | 路径规划 DDPG 估计奖励 信任度 加权动作 |
学位名称 | 专业学位硕士 |
学位专业 | 控制工程 |
其他题名 | Autonomous Path Planning of Industrial Robot Arm in Unknown Environment |
英文摘要 | 2011年的汉诺威工业博览会上正式提出工业4.0的概念,意味着工厂逐渐朝着智能化的方向发展。工业现场为了适应这种新的变化而采用机械臂代替人进行工厂作业。但是当前机械臂的工作主要依靠于人工示教方法,这种方法在面对智能工厂复杂多变的环境以及高度智能化的趋势显然不能满足要求,因而出现了利用软件进行机械臂路径规划的方法,传统的软件方法仍然需要人工进行大量的准备工作,无法满足机械臂在任意未知环境中自主路径规划的需求。强化学习拥有自主学习的功能,本文将利用强化学习算法在CoppeliaSim Edu软件完成对七自由度机械臂的自主路径规划任务。由于机械臂的关节状态为连续值,因此本文采用DDPG(确定性策略梯度算法)进行agent的策略学习,并针对简单、中等、困难三种场景分别进行实验,并且得到该算法可以完成路径规划的任务。根据实验结果可以发现,DDPG算法存在着学习速度慢的问题,并据此分析得到三点原因:(1)由于探索空间庞大,agent极容易在错误的探索方向消耗过多精力。(2)环境中正奖励太少,稀疏奖励场景导致agent学习速度缓慢。(3)神经网络值逼近过程中拟合值方差过大。针对以上三个问题,本文提出了相对应的解决办法。首先根据agent策略网络的学习稳定程度评估出此处Q值是否完成收敛,根据收敛情况调整agent的迭代出信任度的值。通过引入信任度的概念,可以使agent有以下两个特点:(1)面对将来回报为正的状态,agent优先选择收益更加稳定的动作。(2)面对将来回报为负的状态,agent则会放弃收益稳定的动作。同时为了解决稀疏奖励的问题,本文根据粒子群算法最优粒子的概念,引入了最优状态的概念,使得agent不仅仅完成任务才获得正奖励,同时每一个状态可以收获一个估计奖励。最后为了解决神经网络值方差过大的问题使得agent出现极端动作的现象,本文引入的加权动作的方法,使得动作输出为多个扰动状态得到动作的加权值。通过实验证明三种方法均可以有效地提高agent的表现,最终达到缩短训练时长,提高算法训练效率的目的。 |
语种 | 中文 |
产权排序 | 1 |
页码 | 74页 |
源URL | [http://ir.sia.cn/handle/173321/28976] ![]() |
专题 | 沈阳自动化研究所_工业控制网络与系统研究室 |
作者单位 | 中国科学院沈阳自动化研究所 |
推荐引用方式 GB/T 7714 | 李振. 未知环境下工业机械臂自主路径规划[D]. 沈阳. 中国科学院沈阳自动化研究所. 2021. |
入库方式: OAI收割
来源:沈阳自动化研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。