中国科学院机构知识库网格系统: 基于序列图像信息挖掘的物体检测与跟踪

中国科学院机构知识库网格

Chinese Academy of Sciences Institutional Repositories Grid

基于序列图像信息挖掘的物体检测与跟踪

文献类型：学位论文


作者	何嘉伟
答辩日期	2024-05
文献子类	博士
关键词	三维物体检测多目标跟踪时序信息挖掘图匹配三维重建
英文摘要	物体感知是计算机视觉的一项关键技术，其中物体检测和跟踪是两个基础任务。基于图像的物体检测与跟踪被广泛应用于自动驾驶车辆、智能机器人、无人机、增强现实、工业质检、视频监控、运动分析等实际使用场景。然而，对于物体检测与跟踪，有一些困难和具有挑战性的场景，如对于小目标、远距离物体的三维检测，遮挡重叠、外观相似、长时间不可见的物体的跟踪。这些困难和挑战限制了物体检测与跟踪技术的实际应用和进一步的发展潜力。对于序列图像中时序信息的利用是解决这些困难和挑战的有效方法之一。因此，本文研究以时序相连接的物体检测与跟踪这两项计算机视觉感知任务，尤其重点研究在序列图像或视频中物体时序信息的挖掘。本文的主要创新点包括：提出了基于可学习图匹配的多目标跟踪范式，强调帧内关系的重要性。该方法将帧内关系表示为无向图，并将数据关联问题建模为通用图匹配问题。针对原始图匹配二次分配形式NP-hard的问题，提出一种基于二次规划的连续松弛形式。利用隐函数定理和KKT条件将其嵌入到深度神经网络中，即可微分图匹配模块。为了加快图匹配问题求解，设计了门控搜索树算法，大大加快了图匹配问题的求解。提出了只需二维标签的二维三维联合的在线多目标跟踪方法。通过从运动恢复结构的三维重建方法，获取三维场景点云。该工作结合可学习图匹配范式，提出了新的图像间关键点匹配方法，更好地重建整个场景。在三维重建点云中，物体被聚类成点云簇，三维物体中心位置可据此获得。本工作设计了基于重建的伪三维物体标签生成与三维物体表示学习模块。该方法仅通过单目视频学习物体的三维表示，并由二维跟踪标签进行监督，无需来自激光雷达或预训练深度估计器进行额外标注。提出了基于物体时序全局优化的时序三维物体检测与跟踪方法。实现了以物体为中心的时序三维重建，依此设计了两阶段时序三维物体检测器。特别是本工作设计了以物体为中心的时间对应关系学习模块并提出了以特征度量的物体光束法平差损失函数，这些设计使得时序特征学习成为三维物体检测的第二阶段进行联合训练。利用提出时序方法可以更加准确地进行三维物体检测，大大提升了远距离三维物体检测效果。提出了基于多阶段泛化的弱监督单目三维物体检测方法，在工作二的基础上，更进一步的研究了二维监督的三维物体边界框的学习方法。利用神经网络的泛化能力，首次提出了这个问题的实用解决方案。从三维重建得到的三维边界框伪标签开始，本工作设计了三个阶段的泛化：从完整物体到部分可见物体、从静态物体到运动物体、从近距离到远距离，使得弱监督三维物体检测方法接近全监督性能。总的来说，针对序列图像物体检测与跟踪问题，本文工作首先展开全监督方法的研究，包括利用图匹配的物体关联，应用于多目标跟踪任务，以及以物体为中心的时序三维物体检测。利用三维重建这一升维手段，可在无需深度模型的基础上获得物体三维表示方式。依此思想，本文探索了二维三维联合跟踪以及弱监督三维物体检测方法。本文所提出的方法对比同期工作，均具有显著的性能提升，在领域内通用的评测数据集上达到领先的性能指标，能够有效地解决遮挡、远距离等复杂场景下的物体定位和时序关联问题，具有很好的学术创新意义和实际应用价值。
语种	中文
页码	124
源URL	[http://ir.ia.ac.cn/handle/173211/57422]
专题	毕业生_博士学位论文
推荐引用方式 GB/T 7714	何嘉伟. 基于序列图像信息挖掘的物体检测与跟踪[D]. 2024.

入库方式： OAI收割

来源：自动化研究所

浏览0

下载0

收藏0

其他版本

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。