基于基础模型的分层强化学习
文献类型:学位论文
作者 | 吴俣桥![]() |
答辩日期 | 2024-05-14 |
文献子类 | 硕士 |
关键词 | 强化学习 分层强化学习 基础模型 |
英文摘要 | 近期以ChatGPT为代表的基础模型为通用人工智能的实现带来了曙光。作为拥有海量先验知识的预训练模型,基础模型展现了在不同任务间良好的泛化能力与出色的少样本学习能力。尽管基础模型在自然语言处理与计算机视觉领域表现突出,但其在决策领域的应用仍受到挑战:传统的决策问题建模方式与基础模型所采用的序列建模方式存在差异;基础模型如何与环境进行交互并基于交互经验进行学习尚未明确。另一方面,经过几十年的发展,分层强化学习已成为强化学习领域的重要分支,为解决长时序决策问题提供了一种有效的工具。然而,设计合适的分层结构往往依赖于先验知识,而自动学习得到的分层结构所产生的子目标或技能通常与环境或任务紧密耦合。直观来看,基础模型中所蕴含的海量先验知识有助于分层强化学习找到合适的分层方式,而分层强化学习则为基础模型提供与环境交互的手段。此外,分层强化学习的非平稳性能够使基础模型的序列建模发挥更大的价值,在分层强化学习的框架下,利用这种模式进行大规模预训练有望带来性能更强大的分层决策模型。 基于上述观点,本文提出了两种新颖的将分层强化学习与基础模型相结合的方法: 利用基础模型结构进行技能发现的分层强化学习:该算法利用Transformer中的自注意力机制对动作进行聚合,自动发现技能并采用序列化建模方式学习技能内部策略与技能间策略。该方法为训练大规模的分层式决策模型奠定了基础,为扩展基础模型的类型提供了可能。 利用大语言模型生成子目标的分层强化学习:该方法以语言作为通用的子目标表征,利用基础模型中囊括的海量知识结合具体任务与环境观测生成相应的子目标,然后使用传统的概率策略模型学习完成子目标的子策略。该方法提供了一种利用基础模型处理连续动作空间决策问题与多维度复杂决策问题的方法,拓展了基础模型智能体的应用范围。
|
语种 | 中文 |
页码 | 75 |
源URL | [http://ir.ia.ac.cn/handle/173211/57509] ![]() |
专题 | 毕业生_硕士学位论文 |
推荐引用方式 GB/T 7714 | 吴俣桥. 基于基础模型的分层强化学习[D]. 2024. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。