中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
基于视觉-语言引导的机器人导航研究

文献类型:学位论文

作者何科技
答辩日期2024-05-17
文献子类博士
关键词视觉语言导航、数据稀缺、时序信息挖掘噪声、跨模态对齐、异常行为
英文摘要

近年来,随着人工智能技术的快速发展,具身智能领域取得了显著进步,智能化、多模态、可交互的新一代先进机器人成为焦点。基于视觉-语言引导的导航机器人(视觉语言导航机器人)作为典型代表,在家庭、工厂等多种场景中具有巨大的应用潜力,引起了学界和业界的广泛关注。该任务要求机器人能够理解人类指令,并在真实室内环境中完成一系列决策,以到达目的地。可知,视觉语言导航任务具备着真实环境、连续决策、多模态和安全敏感的关键特点,从而使其研究难点呈现出数据驱动、感知记忆、模态推理和模型安全的整体脉络。本文将沿着这一脉络,依次探讨各环节对机器人性能构成制约的关键问题,层层递进,开展如下研究。

1. 针对数据驱动环节的数据稀缺问题,本文提出一种基于频域增强的视觉语言导航数据增广方法。由于真实环境数据的收集和标注十分困难,受限数据造成了视觉语言导航机器人的过拟合问题。先前方法主要从空间域进行探索,并且需要依赖额外的生成式模型生成增广数据。本文从新颖的频域角度展开系统性探索,分析发现现有模型高度依赖于高频信息,但却缺乏识别和捕获所需高频信息的能力。进一步地,实验表明高频信息能够有效缓解过拟合,提升模型泛化性。为此,本文通过向正常导航场景引入干扰高频,构造高频干扰场景作为增广场景。随后,通过将增广场景和正常场景与指令同时对齐,引导模型学习识别和捕获指令相关高频信息的能力,从而辅助提升模型的泛化性。实验结果表明,该方法在跨模型、跨任务上均取得了先进性能,同时无需依赖额外生成式模型,为视觉语言导航领域数据增广提供了一种简洁实用的新思路。

2. 针对感知记忆环节的时序信息挖掘噪声问题,本文提出一种基于记忆自适应机制的视觉语言导航方法。先前方法对每个导航步的感知内容进行编码,形成导航历史,通过特征聚合辅助机器人后续决策,忽视了历史噪声给导航带来的负面影响。针对该问题,本文提出基于记忆自适应机制的视觉语言导航模型对历史噪声进行抑制,其中包含三个核心模块:视觉自适应模块、文本自适应模块和历史可靠度评估模块。具体地,视觉和文本自适应模块根据当前场景相关的视觉和文本信息,对历史噪声进行定位和抑制。历史可靠度评估模块预测历史导航步的可靠度信号,该信号用于优化噪声自适应抑制过程,以获得含噪更少和更加可靠的历史参考信息。实验结果表明,该方法在跨模型、跨模拟器上取得了先进的性能。

3. 针对模态推理环节的跨模态对齐精度低问题,本文提出一种基于细粒度监督信息增强的视觉语言导航方法。先前方法通过启发式算法完成指令-轨迹对的拆分从而获得细粒度数据,然而,这种方式会引入较大误差,影响细粒度数据对齐精度。为此,本文通过人工标注的方式拆分指令-轨迹对,得到子指令-子轨迹对,由此收集了视觉语言导航领域第一个高精度、细粒度、大规模的数据集Landmark-RxR。进一步地,为充分挖掘和验证Landmark-RxR细粒度监督信息的潜力和优势,本文围绕对数据特性显著依赖的训练环节,包括数据增广、训练范式、奖励函数和损失函数进行了针对性设计。实验表明,Landmark-RxR细粒度监督信息能够有效提升模型全局和局部跨模态对齐的能力。

4. 针对模型安全环节的异常行为问题,本文提出一种面向生活物体的视觉语言导航后门攻击方法。一方面,预设异常行为能够阻止机器人进入安全敏感区域,以免带来负面影响,另一方面,恶意触发的异常行为则会对外界环境造成破坏。因此,相关研究对于机器人应用具有极为重要的现实意义。为此,本文结合视觉语言导航任务的特点,包括真实环境、多模态和连续决策,定制化设计了一种视觉语言导航后门攻击方案:IPR后门攻击范式。本文选取真实环境存在的生活物体作为触发器,这类触发器更符合现实需求且极具隐蔽性。在模仿学习阶段,本文设计了视觉停止损失函数,以实现机器人模型从触发器感知到异常行为的基本映射。在预训练阶段,本文结合多模态特点提出锚点损失函数和一致性损失函数共同学习可判别的有毒特征和干净特征,保证有毒特征和异常行为语义对齐的同时,保留干净特征导航导向的特征空间分布。在强化学习阶段,本文结合连续决策特点,提出后门感知的奖励函数,使机器人在提升导航性能的同时能够出色地保留后门攻击的能力。实验结果表明,本文方法在物理空间和数字空间均表现出优异的后门攻击和导航性能,同时具备良好的攻击鲁棒性。

学科主题人工智能
语种中文
页码130
源URL[http://ir.ia.ac.cn/handle/173211/57585]  
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
何科技. 基于视觉-语言引导的机器人导航研究[D]. 2024.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。