面向无人平台的多模态图像目标检测算法研究
文献类型:学位论文
作者 | 张璐![]() |
答辩日期 | 2021-05 |
文献子类 | 博士 |
授予单位 | 中国科学院自动化研究所 |
授予地点 | 中国科学院自动化研究所 |
导师 | 刘智勇 |
关键词 | 目标检测 多模态图像 无人平台 模态融合 模态对齐 增量式小样本学习 |
学位专业 | 模式识别与智能系统 |
英文摘要 | 目标检测是计算机视觉领域中的一个重要研究课题,在智能监控、智慧城市、人机交互等领域有着广泛应用,并在以无人车、无人机、机器人为代表的无人平台感知系统中发挥着基础性作用。目标检测算法的输入为图像或视频帧,输出为所有感兴趣目标的类别置信度、位置和大小。然而,在夜晚、光照不足、恶劣天气等环境下,可见光图像的成像质量大幅降低,表征能力随之下降,这严重影响了目标检测算法的性能。因此,一个处于复杂环境中的、全天候运行的无人平台通常拥有基于多模态输入的感知能力,例如红外、深度图像等,以提供与可见光图像互补的信息。基于此,多模态图像目标检测受到了广泛的关注,开展相关研究具有重要的理论意义与应用价值。 通常来说,无人平台具有全天候、动态性、开放性三个典型特点。首先,全天候意味着无人平台需要在各种天气、光照条件下运行,因此会面对恶劣的天气、复杂的光线环境以及光照不足的夜晚场景。其次,动态性意味着不同于手持或固定摄像头,无人平台是一个在环境中运动的本体,一旦开始运行,一些不可避免的外力,诸如机械振动和温度变化等,会影响多模态系统的成像状况。最后,开放性是指随着时间推进,无人平台可能随时面临新增识别检测要求的情况。本文以面向无人平台的多模态图像目标检测为研究重点,基于上述三个特点,提炼出自适应融合、跨模态区域对齐、增量式小样本学习三个关键挑战,并针对性地开展了相关研究,提出了相应的解决方案。 本文的主要成果和贡献归纳如下: 1. 针对全天候场景下模态特征表达多样性的问题,提出了多模态自适应特征融合方法。首先,本文构建了一种基于双流输入的目标检测框架。针对单阶段目标检测器,提出一种基于模态交互注意力的多模态融合方法。不同于被动的融合方式,所提方法利用全局信息生成通道级的模态交互注意力向量,并在该注意力向量的指导下将待融合特征图进行自适应通道校正。针对多阶段目标检测器,提出一种基于模态置信度的多模态特征融合方法,在感兴趣区域级别上自适应地执行特征重加权,以选择更加可靠的特征、抑制可能产生混淆的特征。实验结果表明,所提出的方法在单阶段、多阶段检测框架中,均显著提升了多模态图像目标检测的性能。 2. 针对无人平台具有高度动态性,模态图像配准易受影响的问题,提出一种跨模态区域对齐方法。首先,介绍了跨模态差异问题,并分析其对目标检测性能的影响。为解决这一问题,提出一种区域特征对齐模块,用于从两种模态中校正和对齐特征图。然后,设计了一种感兴趣区域抖动训练策略,用于增广位置偏移模式,提高方法对不同偏移模式的鲁棒性。同时,提出一种多模态标注方式,对于同一个目标,在两种模态中标注边界框并建立它们之间的关系。进一步地,本文自主构建了基于无人机平台的可见光-红外图像目标检测数据集,该数据集中的图像具有丰富的采集场景和更多的目标类别。实验结果表明,在面对严重的跨模态差异问题时,本文提出的方法展现出较强的鲁棒性,并在多个评测数据集上取得了领先的检测性能。 3. 针对无人平台所处环境具有开放性,可能随时面临新增检测要求的情况,提出一种增量式小样本目标检测方法。首先,提出一种小样本权重生成方法,以构建基础类和新类之间的联系。进一步地,针对目标检测中的多尺度问题,将目标分配给其对应的特征金字塔层,以实现在特定尺度上的、更加合理的特征表示。此外,由于区域中心点往往会获得更好的边界框回归结果,所提方法基于中心度对目标区域中不同位置的特征进行聚合,以使代表性区域特征更加关注目标区域中心点。实验表明,本文提出的方法在保持旧类别检测能力的同时,显著提升了新类别的检测效果,在多个评测数据集的多种评测设置下取得了同期最好的性能。 |
语种 | 中文 |
页码 | 140 |
源URL | [http://ir.ia.ac.cn/handle/173211/44947] ![]() |
专题 | 自动化研究所_复杂系统管理与控制国家重点实验室_机器人应用与理论组 |
推荐引用方式 GB/T 7714 | 张璐. 面向无人平台的多模态图像目标检测算法研究[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2021. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。