基于多模态融合的3D目标检测方法研究
文献类型:学位论文
作者 | 陶满礼![]() |
答辩日期 | 2024-05 |
文献子类 | 博士 |
关键词 | 深度学习 点云 多模态融合 特征对齐 3D目标检测 |
英文摘要 | 随着互联网技术的发展、摄像头和激光雷达等不同传感器设备的普及、2D图像和3D点云数据快速增长并有力加速了多模态大数据时代到来。现实生活中,三维环境理解与人们的生活息息相关,如何利用这些多模态数据提升3D环境感知显得至关重要。作为三维环境感知和计算机视觉领域重要的基础性任务之一,3D目标检测应用范围十分广泛,例如:自动驾驶、机器人导航、安全监控、工业自动化等诸多领域。因此,对3D目标检测技术的研究具有十分重要的学术价值和现实意义。 近年来,3D目标检测技术取得了快速发展。根据处理数据的不同,3D目标检测算法主要分为两类:1)单模态3D目标检测算法;2)多模态融合的3D目标检测算法。总体而言,3D目标检测的发展历程是由早期的单模态算法突破逐步过渡到现在的多模态占据主导。单模态算法中,基于图像的3D目标检测算法面临深度估计不准的难题,在空间尺度回归方面的表现远不如基于点云的3D目标检测方法。但是,由于3D数据固有的稀疏性和无序性,基于点云的3D目标检测算法在3D目标分类中的表现不佳。此外,对于3D场景中存在遮挡和反射点残缺的困难目标,基于点云的3D目标检测模型在分类和3D检测框回归上的精度都比较低。另一方面,当前的多模态融合3D目标检测算法受制于空间对齐的融合机制,对标定参数的波动非常敏感,很难适应实际应用场景。本文围绕3D目标检测任务,针对上述存在的问题,提出了有效的解决方案,极大地提高了3D目标检测器的性能。 多模态方法和单模态方法之间并非孤立并行,3D点云网络作为多模态方法的主分支,对整体的多模态融合效果具有决定性的影响作用。因此,本文遵照从子任务到总目标(分类到检测),从单模态到多模态,由浅至深的研究路线,分别开展相关研究。本文的主要成果和贡献归纳如下: 1. 针对点云稀疏性导致的目标分类性能不足的问题,本文提出了全局子点云(Global Patch Point Clouds)概念,并设计了基于交叉注意力机制的目标分类网络GPCAN。现有的点云分类网络多关注局部几何特征提取,在全局关系建模方面的描述不足,对空间结构相似物体的区分能力较差。因此,本文提出了一种基于全局子点云和注意力机制的网络模型用于提升在点云分类和局部分割(部件分类)等相关任务上的性能。该方法完成了3D目标检测中的目标分类子问题,有利于后续基于点云数据进一步开展3D目标检测研究。 2. 3D场景中通常存在由空间位置遮挡或不同物体表面材质反射率强弱不均等因素造成的几何点残缺现象,基于点云的3D目标检测算法对上述困难目标的检测性能不佳。针对该问题,本文提出了一种基于点云特征增强的3D目标检测模型Objformer。通过设计几何交互模块和语义交互模块,分别对场景中的实例进行几何和语义信息的全局交互传递,增强了基于点云的3D目标检测方法在尺寸回归和类别分类上的性能。该方法旨在提升单模态点云模型对困难3D目标的检测性能,对后续进行多模态融合研究具有重要的参考价值和指导意义。 3. 当前的多模态融合方法多以3D点云网络作为主分支,3D网络的目标召回性能对后续融合阶段的效果具有决定性影响。受制于3D点云数据的特征表现力,3D点云主分支很容易遗漏一些困难的3D目标,现有多模态融合方法无法在融合阶段找回丢失的目标。针对上述问题,本文提出了一种两阶段多模态目标融合互补方法ImFusion。不同于现有的融合方案,本文基于不同模态输入数据得到的2D和3D候选目标,设计了一种基于2D图像目标的伪3D目标生成方法。通过将伪3D目标和点云网络得到的原始3D候选目标进行实例级融合,有效提升了模型第一阶段对困难目标的召回能力。该方法通过融合图像数据解决了3D困难样本召回率低的问题,同时借助图像的语义优势增强了模型对困难目标的分类性能。 4. 现有多模态3D目标检测算法的融合机制多依赖高精度的标定配置以实现空间一致性约束,进而根据空间对应关系完成特征对齐。实际应用中,由于震动等原因引起的不同传感器间的标定波动将导致现有多模态方法出现性能下降甚至失效的问题。针对上述问题,本文提出了一种对齐无关的特征融合方法,将不同模态数据在空间上进行解耦,旨在充分利用不同模态的数据优势以完成不同模态跨实例间的信息交互增强。该方法避免了现有多模态融合算法对标定参数的依赖,并在多个数据集上取得了先进的3D目标检测性能,具有重要的实际应用价值。 |
学科主题 | 模式识别 |
语种 | 中文 |
页码 | 111 |
源URL | [http://ir.ia.ac.cn/handle/173211/57233] ![]() |
专题 | 毕业生_博士学位论文 紫东太初大模型研究中心 |
推荐引用方式 GB/T 7714 | 陶满礼. 基于多模态融合的3D目标检测方法研究[D]. 2024. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。