强化学习在可重入生产系统调度中的应用
文献类型:学位论文
作者 | 柳长春1,2 |
答辩日期 | 2002 |
文献子类 | 硕士 |
授予单位 | 中国科学院沈阳自动化研究所 |
授予地点 | 沈阳 |
导师 | 于海斌 |
关键词 | 强化学习 可重入生产系统 调度 优化 暂态差分算法 |
学位名称 | 硕士 |
学位专业 | 机械电子工程 |
其他题名 | Application of Reinforcement Learning in the Scheduling of Re-entrant Lines |
英文摘要 | 强化学习作为一种解决组合优化问题的方法是近期发展起来的。它结合了神经网络、人工智能、认知科学、仿真和函数近似理论等领域的有关思想,具有解决状态空间巨大和难于建立精确数学模型这两类问题的能力。可重入生产系统是继单件车间和流水车间之后的第三类制造系统。它的最显著特点是,工件在不同的加工阶段多次访问机器。不同加工阶段的工件竞争同,一机器这种情况,使得可重入生产系统的调度问题尤其难解。本文研究强化学习在可重入生产系统调度策咯优化中的应用。.前三章首先介绍了强化学习和可重入生产系统,并对可重入生产系统进行了重新描述,为后续章节的研究提供了必要的基础。第四章讨论基于积累报酬型强化学习方法的封闭可重入生产系统调度策略优化。作者给出了关于相关优化目标猜想的推理验证,将平均阻塞前输出工件个数作为平均输出率的替代佩针对可重入生产系统调度策略寻优这个具体问题,对TD算法进行了改进,并应用该算法进行了调度策略寻优,在2站和3站典型系统中分别得到了比最好的静态优先权调度策略WB规则和并行顺流定级PPOD调度规则性能更好的动态调度策略佩基于结构可解释的函数近似,提出一种具有普遍意义的,通过强化学习,自动发现性能优越的优先权调度策略的方法佩使用一种递阶学习结构,通过学习捕捉启发式策略包含的有益信息,自动获得特征分量,然后再由上层结合其他特征分量,通过强化学习调整参数向量,确定属于状态空间的每个不同状态上哪个启发式策略是最有效的,获得动态调度策略佩最后集中讨论了应用积累报酬型强化学习进行封闭可重入生产系统寻优中的几个问题。第五章对基于平均报酬型强化学习的封闭可重入生产系统调度策略寻优这个问题进行了初步研究。直接从所关心的系统品质-平均输出率出发,应用新近提出的平均报酬型暂态差分算法对调度策略进行优化,获得性能优越的动态调度策略。此外,通过仿真验证了对于该算法,可重入生产系统具有相似推广的性质。最后,作者在第六章对全部研究工作进行了总结,并对今后工作进行了展望。 |
语种 | 中文 |
公开日期 | 2010-11-29 |
产权排序 | 1 |
页码 | 98页 |
分类号 | TP273 |
源URL | [http://210.72.131.170//handle/173321/667] ![]() |
专题 | 沈阳自动化研究所_工业信息学研究室_工业控制系统研究室 |
作者单位 | 1.中国科学院沈阳自动化研究所 2.中国科学院研究生院 |
推荐引用方式 GB/T 7714 | 柳长春. 强化学习在可重入生产系统调度中的应用[D]. 沈阳. 中国科学院沈阳自动化研究所. 2002. |
入库方式: OAI收割
来源:沈阳自动化研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。