中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
图像识别中的领域泛化问题研究

文献类型:学位论文

作者Liu Geng
答辩日期2023-06-20
文献子类硕士
关键词深度学习 图像识别 领域泛化 开集识别
英文摘要

深度学习已经在计算机视觉和自然语言处理等领域内取得了很大的进展,但是传统的深度学习模型在面对域偏移,即测试数据与训练数据的分布差异较大的情况时,其性能往往会出现严重的下降。针对这个问题,有大量的领域泛化(Domain Generalization, DG)方法被提出,尝试将在多个源域上训练的模型泛化到未知的目标域上。本文针对经典的领域泛化问题以及更加困难且贴近实际的开集领域泛化问题进行了研究,提出了新颖的方法来提升模型的性能,并在多个领域泛化数据集上进行了系统的测试评估。本文的主要研究成果如下:

1. 针对当前领域泛化任务中存在的训练数据的领域多样性不足的问题,本文提出了一种基于大规模视觉语言预训练模型的文本引导的领域泛化方法,通过引入额外的文本信息来增强训练数据的领域多样性,进而提升模型的泛化性。
本方法首先设计了一个领域相关词汇生成方法,基于预训练的词汇替换模型来自动生成一定数量的与图像领域相关的词汇,以此来扩展对不同领域的多样化描述。然后本文提出了基于提示学习的文本特征生成方法,利用生成的领域相关词汇进一步生成领域相关文本,通过文本编码器将文本中的领域信息映射到文本特征和图像特征公共的特征空间中,并在此期间通过训练文本提示模板来使文本特征具有更丰富的领域信息。最后,本方法利用输入图像的特征和生成文本的特征来训练一个特别设计的归一化分类器,该分类器在未知的目标域上具有更好的泛化能力,同时图像编码器也基于分类器反向传播回来的梯度进行更新。在多个领域泛化数据集上的实验结果表明,本方法有效利用了生成的文本信息,以一种易于实现的方式在领域泛化任务上取得了优秀的性能表现。

2. 目前已有大量的领域泛化方法被提出来增强模型的泛化性,减少域偏移对模型的影响从而提升模型在未知测试域上的性能。然而传统的领域泛化方法都基于训练数据与测试数据的类别空间一致的假设,这个假设在现实中常常无法成立,因此本文进一步研究了在训练数据与测试数据的类别空间不一致情况下的开集领域泛化问题。本文提出了基于孪生网络的开集领域泛化框架,该框架通过对原始训练图像进行分块打乱来构建合理的未知类别数据,把其作为负样本来不断地对模型进行负面监督,以此让模型学到真正关键的特征表达。这样的做法减少了模型对于原始训练数据的过拟合,有效抑制了模型的过度自信问题,进而增强了模型在开集领域泛化任务上的性能。实验结果显示,该框架在两个开集领域泛化数据集上均取得了目前最佳的性能表现。

学科主题模式识别
语种中文
页码76
源URL[http://ir.ia.ac.cn/handle/173211/52317]  
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
Liu Geng. 图像识别中的领域泛化问题研究[D]. 2023.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。