弱监督数据条件下的场景分割方法研究
文献类型:学位论文
作者 | 覃杰![]() |
答辩日期 | 2024-05-19 |
文献子类 | 博士 |
关键词 | 场景分割 弱监督数据 图像级标注 半监督分割 开放域场景 |
英文摘要 | 近年来,基于深度学习的计算机视觉技术在图像分类、检测、分割、人脸识别、图像生成以及视觉问答等方面取得了显著进展。场景分割作为计算机视觉领域的关键任务,旨在对图像进行逐像素分类。对于复杂场景,提取每个语义类别尤为关键,其性能直接影响到场景理解、解析等上层任务的完成质量。场景分割算法在广泛的应用场景中取得了显著的效果,并推动了相关领域的技术进步。然而,现有的分割算法大多依赖于大规模的像素级分割标注数据进行全监督训练,这导致了高昂的人工标注成本。由于标注成本的限制,会导致训练数据不足或者标注数据稀缺,从而使得分割模型的性能受到严重影响。因此,如何在弱监督条件下高效利用训练数据,实现高性能的分割算法,成为当前研究的热点问题。 本文针对场景分割方法在弱监督数据条件下面临的挑战,展开深入研究,提出创新性的方法,旨在降低分割模型对全监督数据的依赖,使其在有限标注数据下仍能实现优异的分割性能。本文首先针对标注粗略的问题展开了第一个基于图像级别标注的弱监督分割方法研究;其次将训练数据的难度提升,针对部分数据标注缺失的问题展开了第二个和第三个研究,即基于多粒度知识蒸馏的半监督分割方法研究和基于主动数据采样的半监督分割方法研究,该两项研究分别从模型结构优化和数据初始化两个维度展开;最后,进一步提升训练数据难度,针对部分类别数据样本和标注都缺失的问题展开了第四个研究,即基于多模态知识的开域分割方法研究。本文具体的贡献概括如下: 1. 提出了一种基于图像级别标注的弱监督分割方法。在训练数据充足但缺乏像素级标注的情况下,本文研究了利用图像级类别信息训练像素级分割模型的方法。针对精确信息不足和难以识别非判别性区域的问题,本文提出了一种基于激活值调制和重校准的弱监督语义分割方法,引入补偿分支,为经典分类网络提供互补监督和面向分割任务的类别激活图。该补偿分支能够有效挖掘目标的非判别性区域,能更准确地捕捉目标对象区域,显著提升分割性能。通过大量的实验证明了本文方法降低了对像素级标注数据的依赖,提升了图像级标注下分割模型的性能。 2. 提出了一种基于多粒度知识蒸馏的半监督分割方法。针对训练数据充足但存在部分数据无标注的情况,本文旨在训练既准确又轻量化的半监督分割模型,为此,本文提出了一种多粒度知识蒸馏方法,利用两个互补的教师模型蒸馏学生模型,为学生模型提供全面和多样化的知识。并设计了标注-无标注数据协同蒸馏方案,结合分级损失函数提升模型对无标注数据的感知能力。大量的实验验证了该方法的有效性,同时缓解了无标注数据带来的问题,实现了准确且轻量化的半监督分割模型。 3. 提出了一种基于主动数据采样的半监督分割方法。针对标注数据稀缺但有大量无标注数据的情况,本文探索了通过选择最具信息量的数据提升半监督分割模型性能的方法。与基于多粒度知识蒸馏的研究不同,本方法研究侧重于数据层面的选择和初始化设置,以实现提升半监督分割方法的性能,增强其鲁棒性。为此,本文提出了一种基于多模态驱动的主动数据采样的半监督分割方法,其通过多模态引导选择需标注的数据,并借助多模态预训练模型增强了模型鲁棒性。通过实验证明,本方法在选择有效数据上表现优异,有效缓解了数据标注缺失的问题。 4. 提出了一种基于多模态知识的开域分割方法。针对部分类别训练数据和标注缺失的情况,本文研究了无部分类别训练数据条件下提升开域分割模型性能的方法。通过引入视觉语言预训练的多模态模型,利用其提取多模态特征的能力,增强开放域场景的分割效果。因此,本文提出了一种统一且通用的开域分割方法。其采用一体化模型,能够完成多种分割任务,并设计了多模态特征对齐和自适应提示学习方案,确保模型在新类别上的泛化性能。大量的实验表明,本方法具有优异的泛化性能,有效解决了类别数据和标签缺失的难题。 通过上述研究,本文所提出的创新性方法有效地弱化了分割模型对全监督数据的依赖,使得分割模型在弱监督的训练数据下也能取得优异的分割性能。同时提高了分割模型的泛化能力,保证在稀疏数据的情况下依然取得鲁棒的分割性能,对场景分割领域的发展具有重要的研究意义和应用价值。 |
语种 | 中文 |
页码 | 144 |
源URL | [http://ir.ia.ac.cn/handle/173211/57153] ![]() |
专题 | 毕业生_博士学位论文 |
推荐引用方式 GB/T 7714 | 覃杰. 弱监督数据条件下的场景分割方法研究[D]. 2024. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。