中国科学院机构知识库网格系统: 域偏移场景下的视觉识别方法研究

中国科学院机构知识库网格

Chinese Academy of Sciences Institutional Repositories Grid

域偏移场景下的视觉识别方法研究

文献类型：学位论文


作者	李经纬
答辩日期	2024-05-16
文献子类	博士
关键词	迁移学习视觉识别无监督域自适应域泛化测试时间自适应
英文摘要	视觉识别是计算机视觉中最基础的任务之一，得益于海量独立同分布的高质量有标签数据，其相关技术已得到广泛应用。然而，在现实场景中，训练（源）数据和测试（目标）数据往往难以满足独立同分布的假设，从而产生了域偏移现象。在此基础上，由于数据存在隐私保护或实时变化，其获取和标注成本进一步增加。这导致使用传统视觉识别方法训练出的模型性能大幅降低，严重限制了其应用范围。为了应对上述挑战，本文借助迁移学习的思想，研究跨域视觉识别方法，旨在从源域数据和模型中提取丰富的知识，以支持目标域数据的准确识别。针对域偏移场景中多种具体条件下跨域视觉识别方法存在的细粒度分布不匹配、模型可解释性不足、训练过程不稳定、误差累积难消除等问题，提出相应的理论和方法，以提高其在对应条件下的性能。本文的主要研究内容和创新成果归纳如下：（1）针对目标域数据可用条件下细粒度分布不匹配的问题，本文提出了基于跨注意力图正则的无监督域自适应方法。该方法受小样本学习的启发，将小样本学习中样本级交互的思想引入无监督域自适应中；提出高置信度样本选择与类级匹配来桥接两种任务，使得无监督域自适应在训练过程也能完成样本级交互；提出一个即插即用的无参数跨注意力图生成模块完成上述交互过程；提出跨注意力图正则项来约束跨注意力图，构建鼓励正确匹配和抑制错误匹配的约束函数，从而弥合源域和目标域之间的差异。本方法实现了目标域数据可用条件下更细粒度的域匹配，减少了错误的知识迁移，提高了域对齐的准确性。（2）针对目标域未知条件下模型可解释性不足的问题，本文提出了基于频域双分支增强模块的域泛化方法。该方法基于傅里叶变换，同时考虑幅度谱分量和相位谱分量在域泛化中的作用；对于幅度谱分支，提出多级幅度谱修正与标定，分别在域内级和域间级提出域内幅度谱分布修正和域间幅度谱狄利克雷混合，以减轻域特定信息的影响，并探索更多的特征空间；提出测试时间幅度谱原型标定，以在评估时进一步缓解源域和目标域之间的域差异；对于相位谱分支，提出随机对称相位谱摄动来增强识别域无关信息的鲁棒性。本方法结合两个分支的贡献，提高了在目标域未知条件下模型的可解释性和在任意目标域的泛化能力。（3）针对源域标签稀疏条件下训练过程不稳定的问题，本文提出了结合主动学习的半监督域泛化统一框架。通过分析半监督学习和主动学习之间的本质共性，提出了主动半监督域泛化的新任务，并为半监督域泛化和主动学习构建了基于梯度相似度的样本过滤与排序框架；在半监督域泛化部分，通过两个样本过滤模块选择可靠的无标签源域样本赋予伪标签；在主动学习部分，通过两个样本排序模块选择少量信息丰富的无标签源域样本赋予真实标签。这两个部分通过预测置信度和梯度相似度桥接并进行迭代式训练，只需很少的额外标注成本即可大幅提升在源域标签稀疏条件下模型的性能以及模型的训练效率和稳定性。（4）针对无源且目标域持续变化条件下误差累积难消除的问题，本文提出了弹性测试时间熵最小化的测试时间自适应方法。由于不同的目标域的分布特性和对模型的影响不同，因此它们不应该被平等对待；该方法基于平均余弦相似度来衡量目标域和模型的变化；提出平均余弦相似度的弹性，并基于该性质提出了弹性测试时间熵最小化，通过构建的平均余弦相似度和动量系数之间的函数关系自适应地更新和恢复模型；提出三点改进方案，使模型能应用于多个实际场景中，减轻了在无源且目标域持续变化条件下模型的误差累积和灾难性遗忘。
语种	中文
页码	136
源URL	[http://ir.ia.ac.cn/handle/173211/56678]
专题	毕业生_博士学位论文
推荐引用方式 GB/T 7714	李经纬. 域偏移场景下的视觉识别方法研究[D]. 2024.

入库方式： OAI收割

来源：自动化研究所

浏览0

下载0

收藏0

其他版本

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。