中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
面向多目标覆盖任务的深度强化学习迁移泛化方法研究

文献类型:学位论文

作者徐一凡
答辩日期2024-06
文献子类硕士
关键词多目标覆盖任务 强化学习 迁移泛化 课程学习 域自适应 环境偏移
英文摘要

在无人技术快速发展的今天,多智能体多目标覆盖任务在通信、军事作战等
领域备受关注。传统优化方法对特定覆盖场景进行优化目标和约束建模,需要较
多专家知识且难以处理动态序贯决策任务。深度强化学习作为目前决策领域发
挥巨大作用的一类方法,具有与环境交互学习、奖励函数设计灵活以及能够适应
高维输入等特性,因此在多目标覆盖任务中也受到了广泛关注。然而,深度强化
学习方法训练成本高,迁移泛化性弱等特点使其难以在复杂多变的多目标覆盖
场景上灵活部署,为该领域带来了新的挑战。
近年来,深度强化学习(Deep Reinforcement Learning, DRL)在决策控制领
域取得了显著成就。尽管如此,DRL 算法在处理高复杂度、环境多变的真实世
界应用问题时表现出低灵活性、低适应性等特点,使得DRL 在真实世界应用受
阻。在诸多应用场景中,多智能体多目标覆盖任务具有场景灵活多变、行为连续
高动态、要素多元耦合等因素,作为真实世界复杂应用任务的典型代表,本文将
该任务作为研究DRL 迁移泛化问题的任务场景。
因此,本文以多智能体多目标覆盖任务为研究场景,着重研究深度强化学习
方法在该类复杂决策任务下的迁移泛化能力。本文的主要内容和创新点如下:
(1)针对场景元素增加带来的策略状态空间探索困难问题,提出一种双观测
的课程学习算法,用于新环境下的多智能体策略迁移。针对目标数量增加导致
的观测信息难处理问题,通过聚类方法提取观测中的关键信息,并与原始信息
结合作为策略前端的输入特征;针对智能体数量增加导致的状态空间爆炸问题,
通过课程学习方法实现算法从简单环境到复杂环境的逐步学习。实验验证了双
观测模块能够有效处理目标数量增加带来的观测维度增长问题,同时,课程学习
机制提升了算法在智能体规模增加时的训练效率和策略性能。
(2)针对训练环境单一带来的策略过拟合问题,提出一种随机环境生成和共
享特征提取的策略学习框架,用于提升多目标覆盖任务下策略的零样本泛化能
力。针对训练过程数据来源单一问题,设计一系列环境参数分布用于随机化生成
训练环境,从数据增强角度提升策略泛化性。针对课程学习训练机制下的灾难性
遗忘问题,设计基于域自适应方法的环境共同特征提取模块,从特征角度提取环
境先验知识,辅助下游策略学习。实验验证了域随机化能够有效处理算法面向单
一场景过拟合问题,同时域自适应提升了算法在新环境下的迁移泛化能力。
(3)针对强化学习策略迁移泛化能力难以定量评估问题,提出一种面向环境
差异的策略迁移泛化性能评估框架,并在该框架下提出两种方法。从策略性能角
度,利用直接反映策略性能的回报值构建检验统计量,评估策略在新环境中回报
值的变化情况。利用源环境的奖励函数构建三种不同的回报值计算方式,以定位
环境偏移发生的具体模块。从策略行为角度,利用策略在源环境和目标环境中的
轨迹构建统计量,评估策略在新环境中轨迹的变化情况。实验通过对比两种检测方法和其他基线算法,验证了本章提出两种方法的有效性和灵活性。
综上所述,本文以深度强化学习在多智能体多目标覆盖任务中的应用为任
务场景,研究了深度强化学习方法在该类复杂决策场景下的迁移泛化问题。本文
的研究成果,一方面直接为多目标覆盖任务的迁移泛化、实际部署提供算法支
撑,另一方面为强化学习的迁移泛化问题提供解决思路。

语种中文
页码74
源URL[http://ir.ia.ac.cn/handle/173211/57455]  
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
徐一凡. 面向多目标覆盖任务的深度强化学习迁移泛化方法研究[D]. 2024.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。