开放集模型自适应方法研究
文献类型:学位论文
作者 | 高正清![]() |
答辩日期 | 2024-05-26 |
文献子类 | 硕士 |
关键词 | 开放集识别 测试阶段自适应 视觉-语言模型 |
英文摘要 | 深度学习技术自其诞生以来,在图像识别、自然语言处理、语音识别等多个领域取得了巨大的成功。这些成就在很大程度上依赖于两个基本假设:封闭世界假设,即所有可能遇到的类别在训练阶段都已知;以及独立同分布假设,即训练和测试数据是从同一分布中采样得到。然而,现实世界的环境远比这些假设所描述的要复杂得多,经常会出现训练时未见过的开放类别,以及由于各种因素引起的数据分布漂移。这些现实问题对深度学习模型的鲁棒性提出了极大的挑战。为此,本文研究开放集模型自适应方法,旨在设计能够有效应对现实环境变化的深度学习模型。本文分别针对单模态视觉模型和多模态视觉-语言模型设计了专门的算法,通过在开放集环境中提高模型的自适应能力,显著增强了深度学习模型面对未知类别和分布漂移时的鲁棒性。本文的主要创新点如下: 1. 本文提出了面向开放集测试阶段自适应的统一熵优化方法。现有的测试阶段自适应方法基本都针对封闭集设计,然而在测试阶段,模型不可避免地会遇到大量在训练阶段未见过的类别,这就要求模型具有妥善处理分布外样本的能力。本文通过实验发现现有的测试阶段自适应方法在开放集设定下会出现性能下降,本文将其总结为对数据分布和模型置信度的不准确估计,并提出了统一熵优化方法。该方法首先对协变量漂移的测试数据进行粗略的区分,将其分为分布内数据和分布外数据,接着对两者分别进行熵最小化和熵最大化,以同时实现已知类别分类和未知类别拒识。此外,本文进一步通过设计样本级权重减少数据划分带来的噪声。实验结果验证了提出方法的有效性。 2. 本文提出了面向视觉-语言模型的开放集测试阶段提示微调方法。近期,视觉-语言模型通过充分探索文本模态的丰富信息在各项视觉任务上取得了优越的性能,展现出了强大的零样本识别能力和开放概念学习潜力。通过在下游数据上进行小样本提示微调,其性能还可以进一步提升。然而,由于模型过拟合到了少量数据,其泛化性能受到了损害。手工设计的提示相比学习到的提示更容易泛化到未知类别。基于此,本文考虑结合二者的优点,提出了一种测试阶段提示融合策略,该策略通过最大概念匹配分数为每个测试样本产生一个动态权重,进而得到依赖于输入的提示。实验结果表明,提出方法在同时考虑基础类和新类时取得了最佳的性能。 |
语种 | 中文 |
页码 | 80 |
出处 | 学位论文 |
源URL | [http://ir.ia.ac.cn/handle/173211/57202] ![]() |
专题 | 毕业生_硕士学位论文 |
推荐引用方式 GB/T 7714 | 高正清. 开放集模型自适应方法研究[D]. 2024. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。