中国科学院机构知识库网格系统: 面向视频物体检测及分割的时序特征建模

中国科学院机构知识库网格

Chinese Academy of Sciences Institutional Repositories Grid

面向视频物体检测及分割的时序特征建模

文献类型：学位论文


作者	何飞
答辩日期	2023-05-17
文献子类	博士
关键词	时序特征建模视频物体检测视频实例分割特征聚合特征传播
英文摘要	视频中的物体检测和实例分割是计算机视觉领域的基础问题，在视频处理与分析中发挥着关键作用，具有重要的研究意义和广泛的实用价值。目前物体检测和实例分割算法的发展主要集中于静态图像分析，而在视频监控、互联网和自动驾驶等实际应用场景中，基于视频的物体检测和实例分割具有更为迫切的实际需求。然而，将最先进的图像物体检测和实例分割算法直接应用于视频每一帧时，仍然面临着新的挑战。在检测精度方面，视频中存在运动模糊、镜头失焦、遮挡和怪异视角等致使物体外观恶化的因素，使得图像物体检测算法难以准确识别其中的物体，从而降低了检测的精度。在检测速度方面，大多数图像物体检测算法的运行速度仍然较慢，但是一些实际应用场景对物体检测算法往往具有实时性要求，如驾驶场景和工业应用场景。如果在视频中的每一帧都单独运行图像物体检测算法，将无法满足实时性要求。在视频实例分割方面，为了实现逐帧的实例分割和帧间的实例关联，先前的方法需要在图像实例分割模型基础上添加额外的多目标跟踪模型，这增加了系统的复杂度，并且多个任务阶段之间难以联合优化，从而限制了模型的性能上限。然而，视频相比静态图像包含更丰富的时序信息，如何有效地建模时序特征是解决上述挑战的关键。因此，本文以时序特征建模为出发点，对视频中的物体检测和实例分割开展了以下研究工作： 1. 基于特征自适应聚合的高精度视频物体检测。为提升在外观恶化场景中的视频物体检测准确率，已有方法采用聚合固定邻域的时序特征的策略来增强恶化帧的特征质量。然而视频具有高度冗余性和无序变化性，机械式特征聚合策略效率低且容易引入额外噪声，影响特征增强效果。为此，本文提出了一种特征自适应聚合方法，模型首先估计当前帧中物体的运动信息用于灵活选择聚合帧，然后从聚合帧的特征中动态采样高质量特征以提升当前帧的特征质量，进而提升物体检测的准确率。该方法让模型自适应地利用时序信息，实现高效的特征增强。在每帧聚合较少视频帧的同时，即可达到当时最高的视频物体检测精度。 2. 基于对象特征传播的快速视频物体检测。大多数图像物体检测算法都难以满足实时运行的需求。在视频中，物体随着时间发生缓慢移动或形变，因此相邻帧的外观非常相似。本文基于这一观察，提出了一个对象特征传播框架进行快速视频物体检测。具体而言，视频序列被动态地分为关键帧和非关键帧，模型将稀疏的关键帧上的对象特征传播至稠密的非关键帧，减少非关键帧的冗余计算量；模型将历史关键帧的对象特征传播至当前关键帧，通过对象关系建模提升对象特征的质量，提高检测精度。与之前基于运动估计模型的特征图传播或边界框传播方法不同，本文的对象特征传播方法仅需轻量的对象特征注意力即可实现特征传播，并且与检测网络共享计算量。大量实验表明，该方法显著地提升了视频物体检测的精度和速度，验证了对象特征传播的高效性。 3. 基于时序一致实例特征的在线视频实例分割。视频实例分割旨在同时完成视频每帧的实例分割和帧间的实例关联。已有方法通常采用显式的实例关联策略，即使用实例分割模型获取每帧的实例掩码，然后再使用额外的多目标跟踪模型进行帧间实例关联。该方法存在较高的模型复杂度，同时实例分割和实例关联的分开建模，也导致多任务信息交互不足，无法充分利用时序线索。因此，本文提出了基于时序一致实例特征的视频实例分割框架。该框架利用实例查询与候选框的时序传播机制，充分挖掘和利用时序信息，学习具有时序一致性的实例特征，以对实例分割和实例关联进行统一建模，从而执行高效的隐式实例关联。实验结果表明，相较于显式实例关联方案，本方法在精度和速度方面均有显著提升，验证了联合建模实例分割和实例关联的有效性。
语种	中文
页码	141
源URL	[http://ir.ia.ac.cn/handle/173211/51935]
专题	毕业生_博士学位论文
推荐引用方式 GB/T 7714	何飞. 面向视频物体检测及分割的时序特征建模[D]. 2023.

入库方式： OAI收割

来源：自动化研究所

浏览0

下载0

收藏0

其他版本

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。