几何驱动的三维场景检测与分割
文献类型:学位论文
作者 | 关赫![]() |
答辩日期 | 2024-05-11 |
文献子类 | 博士 |
关键词 | 几何驱动 单目三维检测 多维场景分割 数据增强 实用性 特征交互 |
英文摘要 | 随着数字城市的发展浪潮,人们对智能化、个性化的出行服务有了更高的期待。实际需求的紧迫感推动着计算机视觉技术的迅猛发展,尤其是在智能感知领域。在该领域中,三维场景的感知理解能力是至关重要的,因为这直接决定了智能体做出决策和响应的准确性和效率,从而影响了现实世界的互动效果。作为感知系统的关键模块,检测和分割任务一直受到学术界和工业界的广泛关注。这些模块旨在识别和定位三维场景中的感兴趣的物体,并对任意位置的语义进行细粒度辨别。传统深度学习技术在处理三维场景检测与分割等底层任务时会面临数据稀疏性、几何表征复杂、模型泛化能力不足等诸多难点。众所周知,三维场景内蕴含着丰富的几何信息,如形状结构、空间层次、透视关系等。利用上述类型的几何先验知识驱动传统方法再升级,有着丰富信息表征、增强数据鲁棒性和降低计算复杂度的内在优势。如何利用这些物理先验来引导感知算法的设计和优化,以赋予可学习模型更强的可解释性和泛化性,也成为当前亟待探索的研究课题。为解决这一挑战,本文从数据输入、结构设计和任务联动三个角度分别进行探索,以几何驱动范式来提升三维场景的检测和分割性能。 本文的主要工作和创新点归纳为: 1. 提出一种几何一致性约束的单目三维物体检测方法,在保持透视几何一致性的同时提升了视觉内容多样性。与纯激光雷达三维检测或纯图像二维检测相比,可用于单目三维检测的数据增强算子相对较少,因为透视空间中固有的几何一致性约束被忽略了。为缓解这种稀缺性,本工作基于透视原理重新封装了常用的二维增强算子,并提出两种几何重采样的增强策略,即几何驱动的全局复制粘贴和局部缩放编辑。配备了几何关系的数据增强操作更符合视觉和物理空间的实际规律,可以合逻辑地扩充有限数据,同时兼顾即插即用的优势。实验结果证实几何重采样策略的有效性和普适性。 2. 提出了一种多级几何引导的实用性单目三维检测方法,以满足感知系统对高性能、轻量级和低延迟的关键要求。本工作对先进检测器的设计经验进行归纳,相应地构建一个轻量级颈部模块来高效聚合多尺度特征,并引入自适应注意力感知损失来减轻分类和定位的错位。同时,复杂的三维物体属性被解耦成简单的多重二维子空间投影,结合辅助学习机制以无负担地提高检测性能。提出的实用原型在多个评估基准上展示了准确性和可伸缩性的出色权衡。 3. 提出了一种跨模态特征交互补偿的多维语义分割方法,从数据同步、特征交互和任务联动三个层面降低多模态设定中特征融合和交互的难度。图像数据源优势在于视觉表观丰富,而点云数据源优势在于物体测量精准。本工作试图在兼容多模态优势的同时协同优化多个任务,以实现一站式的语义输出。跨模态预同步模块实现输入数据的语义对齐和表征解耦。跨视图协作通路缓解多模态表征的异质性。模仿补偿机制为模态残缺的样本提供一条间接推理的渠道。在多个3D语义分割基准上都取得领先的性能且对2D端亦有助益,印证了该方法的有效性和灵活性。 |
学科主题 | 人工智能 |
语种 | 中文 |
页码 | 100 |
源URL | [http://ir.ia.ac.cn/handle/173211/57644] ![]() |
专题 | 毕业生_博士学位论文 |
推荐引用方式 GB/T 7714 | 关赫. 几何驱动的三维场景检测与分割[D]. 2024. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。