强化学习算法中启发式回报函数的设计及其收敛性分析
文献类型:期刊论文
| 作者 | 魏英姿; 赵明扬
|
| 刊名 | 计算机科学
![]() |
| 出版日期 | 2005 |
| 卷号 | 32期号:3页码:190-193 |
| 关键词 | 强化学习 回报函数 马尔可夫决策过 策略 收效性 |
| ISSN号 | 1002-137X |
| 其他题名 | Design and Convergence Analysis of a Heuristic Reward Function for Reinforcement Learning Algorithms |
| 产权排序 | 1 |
| 英文摘要 | 回报函数设计的好与坏对学习系统性能有着重要作用,按回报值在状态-动作空间中的分布情况,将回报函数的构建分为两种形式:密集函数和稀疏函数,分析了密集函数和稀疏函数的特点.提出启发式回报函数的基本设计思路,利用基于保守势函数差分形式的附加回报函数,给学习系统提供更多的启发式信息,并对算法的最优策略不变性和迭代收敛性进行了证明.启发式回报函数能够引导学习,加快学习进程,从而可以实现强化学习在实际大型复杂系统应用中的实时控制和调度. |
| 语种 | 中文 |
| CSCD记录号 | CSCD:1958441 |
| 资助机构 | 中国科学院先进制造基地创新基金(F010120);;973计划课题(2002CB312200) |
| 公开日期 | 2010-11-29 |
| 源URL | [http://210.72.131.170//handle/173321/6427] ![]() |
| 专题 | 沈阳自动化研究所_装备制造技术研究室 |
| 通讯作者 | 魏英姿 |
| 作者单位 | 1.中国科学院沈阳自动化所机器人学重点实验室 2.中国科学院研究生院 3.沈阳理工大学 |
| 推荐引用方式 GB/T 7714 | 魏英姿,赵明扬. 强化学习算法中启发式回报函数的设计及其收敛性分析[J]. 计算机科学,2005,32(3):190-193. |
| APA | 魏英姿,&赵明扬.(2005).强化学习算法中启发式回报函数的设计及其收敛性分析.计算机科学,32(3),190-193. |
| MLA | 魏英姿,et al."强化学习算法中启发式回报函数的设计及其收敛性分析".计算机科学 32.3(2005):190-193. |
入库方式: OAI收割
来源:沈阳自动化研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


