中国科学院机构知识库网格系统: 面向不同数据标注场景的图像目标检测研究

中国科学院机构知识库网格

Chinese Academy of Sciences Institutional Repositories Grid

面向不同数据标注场景的图像目标检测研究

文献类型：学位论文


作者	王绍儒
答辩日期	2023-08-22
文献子类	博士
关键词	目标检测实例分割噪声学习自监督学习轻量化网络知识蒸馏
英文摘要	目标检测是计算机视觉和数字图像处理领域的一项热门课题，旨在对图像中的目标物体进行定位识别，广泛应用于智能安防、自动驾驶、工业检测等诸多领域。近年来，目标检测方法在各场景的应用推进也为相关方法的设计与开发提出了全新的挑战。一方面，部分应用场景逐渐复杂化、需求逐渐精细化，例如：在自动驾驶、智能安防、图像编辑等场景中，基于边界框的定位形式可能不足以满足应用需求，因此会额外提供像素级实例分割标注以满足相关任务需求；另一方面，受限于数据标注的高昂人力物力成本，一些应用场景中的数据变得不完备、标注呈现低质化，例如：某些场景中仅可获取样本的不精确边界框标注、甚至完全没有人工标注。在上述研究背景下，有必要研究各种可适配不同标注场景的目标检测方法，以满足实际应用的需要。据此，本文基于检测方法与数据的依赖关系，尝试针对不同数据标注场景提出相应的目标检测方法，主要工作和创新点归纳如下： 1. 提出了一种面向精细像素级掩膜标注的目标检测与实例分割联合互惠方法框架。目标检测任务一般采用边界框的形式表征物体位置，但一些诸如自动驾驶、图像编辑的应用场景中，额外要求以更精细的像素级物体分割掩膜的形式表征物体位置，即实例分割任务。这些任务中，会额外提供物体的像素级分割掩膜标注。针对此标注场景，本文提出了一种互惠的目标检测与实例分割联合框架，在充分分析两项任务的关联关系的基础上，设计了一种双流网络结构，并创新性提出基于相关滤波的物体掩膜预测方法与基于掩膜的物体边界框优化方法。此框架有效融合了前人工作中“自底向上”与“自顶向下”的两种范式，可同时完成目标检测与实例分割任务，有效缓解了此前方法的检测结果中经常出现的边界框定位不准确、检测框与分割掩膜不统一、分割掩膜不完整等问题。在目标检测任务中，此方法以极低的计算代价取得了更优的目标框定位精度；在实例分割任务中，此方法可生成更精细的实例掩膜，并取得了更优的速度与精度的平衡。 2. 提出了一种面向不精确图像标注的可有效应对边界框标注噪声的检测器训练方法。目标检测数据标注需耗费大量的人力与物力成本，其中边界框标注精细化调整会占用大量的标注时间。在许多现实应用场景中，往往由于人力紧缺、时间有限或标注流程不完善等原因，标注中容易存在误差。针对此标注场景，本文首次基于真实标注数据研究并验证了标注噪声会严重影响现有检测器的训练过程进而使其出现明显的检测性能下降，并对人为标注的噪声分布进行了细致分析。更进一步，本文提出了可有效应对标注噪声的目标检测器训练方法。此方法引入教师-学生学习机制，由教师网络首先通过预测集成的方式挖掘不精确标注中的有效信息，对噪声标注进行校正，再据此校正之后的信息指导学生网络的学习。此方法可有效抑制训练数据中的噪声对检测器训练造成的不良影响，使得在面临不精确数据标注时检测器的精度显著提高。 3. 提出了一种面向无标注预训练数据的检测器可精简自监督预训练方法。现有检测器一般采用在上游任务预训练的模型权重作为参数初始化，其中，基于无标注数据的自监督预训练方案的数据获取成本更低且包含更少的人为偏见，在检测任务中展现出巨大潜力。针对此标注场景，本文首先提出可精简自监督预训练方法。此方法巧妙融合了基于对比学习的自监督预训练方法与知识蒸馏方法，可通过一次预训练，获取得到多个具有不同尺寸大小的预训练模型。此方法可有效应对具有多尺寸模型部署需求的应用场景，对于每个部署平台，均可根据实际需要从一次性获取得到的多个预训练模型中选择符合计算资源限制的模型将其迁移至所需下游任务中，而无需一一单独预训练这些模型。实验结果表明，采用此方法得到的多个预训练模型在包括检测任务在内的多种下游任务中可取得与单独预训练的模型相当甚至更优的迁移性能，且可节省大量的预训练成本。 4. 提出了一种面向无标注预训练数据的轻量级视觉自注意力网络检测器预训练方法。现有自监督预训练研究多关注大尺寸模型，尤其是以大尺寸视觉自注意力网络作为检测器的骨干网络已展现出巨大的性能潜力。然而，其高昂的计算成本与众多实际应用中的轻量化需求不符。在此背景下，本文聚焦轻量级视觉自注意力网络的自监督预训练，首先充分调研并评估了现有方案在检测任务中的性能表现并提出相关评测实验基准，发现其性能甚至逊于全监督预训练方案，表现出有异于大尺寸模型的特性。针对此问题，本文进一步通过深入分析，提出了针对生成式自监督预训练的知识蒸馏方法，采用注意力知识迁移与预训练目标解耦的策略，有效改善了预训练模型的质量，并在下游检测任务中取得了显著的性能提升。此方法也适用于除检测外的其他视觉任务，具有广泛的学术与应用价值。
语种	中文
页码	144
源URL	[http://ir.ia.ac.cn/handle/173211/52413]
专题	毕业生_博士学位论文
推荐引用方式 GB/T 7714	王绍儒. 面向不同数据标注场景的图像目标检测研究[D]. 2023.

入库方式： OAI收割

来源：自动化研究所

浏览0

下载0

收藏0

其他版本

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。