中国科学院机构知识库网格系统: 强化学习算法中启发式回报函数的设计及其收敛性分析

强化学习算法中启发式回报函数的设计及其收敛性分析

文献类型：期刊论文


作者	魏英姿 ; 赵明扬
刊名	计算机科学
出版日期	2005
卷号	32 期号:3 页码:190-193
关键词	强化学习回报函数马尔可夫决策过策略收效性
ISSN号	1002-137X
其他题名	Design and Convergence Analysis of a Heuristic Reward Function for Reinforcement Learning Algorithms
产权排序	1
英文摘要	回报函数设计的好与坏对学习系统性能有着重要作用,按回报值在状态-动作空间中的分布情况,将回报函数的构建分为两种形式:密集函数和稀疏函数,分析了密集函数和稀疏函数的特点.提出启发式回报函数的基本设计思路,利用基于保守势函数差分形式的附加回报函数,给学习系统提供更多的启发式信息,并对算法的最优策略不变性和迭代收敛性进行了证明.启发式回报函数能够引导学习,加快学习进程,从而可以实现强化学习在实际大型复杂系统应用中的实时控制和调度.
语种	中文
CSCD记录号	CSCD:1958441
资助机构	中国科学院先进制造基地创新基金(F010120);;973计划课题(2002CB312200)
公开日期	2010-11-29
源URL	[http://210.72.131.170//handle/173321/6427]
专题	沈阳自动化研究所_装备制造技术研究室
通讯作者	魏英姿
作者单位	1.中国科学院沈阳自动化所机器人学重点实验室 2.中国科学院研究生院 3.沈阳理工大学
推荐引用方式 GB/T 7714	魏英姿,赵明扬. 强化学习算法中启发式回报函数的设计及其收敛性分析[J]. 计算机科学,2005,32(3):190-193.
APA	魏英姿,&赵明扬.(2005).强化学习算法中启发式回报函数的设计及其收敛性分析.计算机科学,32(3),190-193.
MLA	魏英姿,et al."强化学习算法中启发式回报函数的设计及其收敛性分析".计算机科学 32.3(2005):190-193.

入库方式： OAI收割

来源：沈阳自动化研究所

下载0

强化学习算法中启发式回报函数的设计及其收敛性分析

其他版本