单目标视觉跟踪泛化性问题的相关研究
文献类型:学位论文
作者 | 黄梁华![]() |
答辩日期 | 2020-05 |
文献子类 | 博士 |
授予单位 | 中国科学院自动化研究所 |
授予地点 | 中国科学院自动化研究所 |
导师 | 黄凯奇 |
关键词 | 单目标视觉跟踪 |
学位名称 | 博士学位 |
学位专业 | 模式识别与智能系统 |
英文摘要 | 单目标视觉跟踪任务是指在一段视频中,给定某运动物体在首帧的初始位置,持续定位该物体以估计其完整轨迹的过程。单目标视觉跟踪是计算机视觉领域的一个重要研究方向,它在无人驾驶、机器人感知、智能监控和视频编辑等实际任务中发挥着重要作用。经过几十年的发展,跟踪方法在速度、准确性和稳定性上都取得了很大的进展。然而,现有方法在实际场景当中,仍然存在泛化性不足的问题。一方面,目前以深度学习为代表的跟踪方法,通常在开集测试环境下面对不熟悉的物体或运动类型时,性能会显著降低;另一方面,我们通过大量实验分析观察到,现有跟踪方法的性能通常随着时间迅速下降。该现象表明,这些方法存在较为严重的累积误差问题,其表观和运动模型在更新过程中可能出现过拟合,导致其难以泛化到后续的跟踪过程。针对以上问题,本文从跟踪的评估规范、表观建模和运动建模三个方面出发,构建了单目标视觉跟踪泛化性能的评估平台,并提出了一系列跟踪方法。本文所展开的研究工作可归纳如下: (1)大规模广覆盖单目标视觉跟踪评估平台。针对单目标视觉跟踪方法在不熟悉物体和运动形式上的泛化性能评估问题,本工作发起并构建了一个大规模视觉跟踪数据库和评估平台。该平台提供包含1万段视频、563类运动物体、87类运动形式和150万精细标注的高质量视频轨迹数据库,其物体类别数目近十倍于现有跟踪数据库。与此同时,该平台对39个不同类型的跟踪方法给出了全面细致的评估分析。更重要的是,本工作首次提出训练与测试类别不重叠的评估准则,能有效评估跟踪方法在开集测试环境下,对不熟悉类别和运动形式的目标进行跟踪的泛化能力。目前,该平台和相应的评估标准已被世界范围内60多个学术和工业机构的200多个团队广泛使用。 (2)基于检测的单目标视觉跟踪通用框架。物体检测领域的模型启发了许多视觉跟踪方法的设计。例如,跟踪领域经常借鉴检测算法中的物体边界框回归模型、区域建议网络、感兴趣区域池化、分类和定位损失等模块以改进跟踪算法的定位精度和特征判别能力等。区别于以上方法,本工作提出一种直接在物体检测模型上构建跟踪算法的通用框架。该框架能够完整复用现有基于深度学习的物体检测模型,通过引入查询引导模块和基于元学习的更新机制,来实现对任意类别运动物体的在线跟踪。此外,该框架中的元学习机制可根据未来帧上的损失来优化模型更新过程的泛化性能,可有效缓解跟踪时的模型漂移和累积误差问题。 (3)基于查询引导模型的全局单目标跟踪方法。现有单目标视觉跟踪方法通常基于严格的空间局部性和运动平滑性假设来在跟踪过程中搜索目标、筛选候选样本或对候选样本进行加权,这可能导致严重的累计误差问题——当出现短暂跟偏、跟丢、物体被遮挡或移出搜索区域时,这些短期误差会在跟踪过程中不断累积,导致跟踪方法在后续帧中无法长期稳定地定位目标。在长时跟踪任务中,这种现象尤为明显。针对该问题,本工作提出一种基于查询引导的全局单目标跟踪方法。该方法设计了一种简洁的全局跟踪框架,通过去除局部性约束和状态之间的时序依赖关系,实现零累计误差的单目标跟踪。该方法为长时单目标视觉跟踪任务提供了一个简洁高性能的基准模型。 |
语种 | 中文 |
页码 | 98 |
源URL | [http://ir.ia.ac.cn/handle/173211/39099] ![]() |
专题 | 毕业生_博士学位论文 |
通讯作者 | 黄梁华 |
推荐引用方式 GB/T 7714 | 黄梁华. 单目标视觉跟踪泛化性问题的相关研究[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2020. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。