面向图像识别的深度神经网络迁移研究
文献类型:学位论文
作者 | 聂兴![]() |
答辩日期 | 2024-05-14 |
文献子类 | 博士 |
关键词 | 图像识别 深度神经网络迁移 提示学习 双端记忆巩固 可微分门控 |
英文摘要 | 基于深度学习的图像识别模型已经广泛应用于自动驾驶、工业制造、智慧安防等领域。但是训练图像识别模型通常需要大量的计算资源开销。此外,现有的图像识别模型也很难直接适应新的数据分布或场景。针对这些问题,研究者们提出了深度神经网络迁移,通过从已有模型中挖掘潜在的知识,避免了重复训练带来的资源浪费,帮助模型在新场景上更快地学习和适应。 近年来,面向图像识别的深度神经网络迁移方法取得了显著的研究进展,为视觉数据的处理、理解和应用提供了重要的支持。 针对上述问题,本文对面向图像识别的深度神经网络迁移进行研究和探索,并为每个问题提供了相应的解决方案。本文的主要贡献归纳如下: 1.针对参数效率挑战,提出了一种基于提示学习的深度神经网络迁移方法。该方法的核心思想是在适当的提示设计的帮助下,保持预训练模型的参数冻结,通过改善预训练模型的中间特征图的信息流来适应目标域中的下游任务,而不是直接对预训练模型进行参数更新。该方法提出了一种基于提示的迁移策略,为每个输入图像学习具有判别性的视觉提示,同时冻结预训练模型的参数。具体地,该方法为预训练模型引入了一种简单且轻量的提示学习模块,针对预训练模型的多个语义层级,从输入图像中提取出特定于任务的提示特征,通过将学习到的提示与预训练模型的各级中间特征图进行自适应聚合,从而产生参数高效的目标域模型,即每个下游任务只需要训练少量的额外参数。最后,在图像分类和语义分割的基准数据集上的大量实验验证了所提方法的有效性。 2.针对可扩展性挑战,提出了一种基于双端记忆巩固的深度神经网络迁移方法。该方法的核心思想是通过设计模型内部的记忆交互机制,赋予模型持续不断地学习新的目标域的能力。具体地,该方法引入基于特征蒸馏和参数动量更新的双端记忆巩固机制。首先将模型参数解耦为短期记忆分支和长期记忆分支,其中短期记忆分支侧重于模型的表示能力,通过对近期学习过的任务的快速适应以形成短期记忆,长期记忆分支侧重于模型的抗遗忘能力,通过学习少量任务平衡的样本以形成长期记忆。然后,采用特征蒸馏和参数动量更新在两个分支之间进行动态交互,以产生丰富的特征表示,从而使模型形成所有学习过的任务的结构化知识,无需针对每一个目标域增加参数量。最后,在图像分类和语义分割的公开数据集上进行了大量的实验,验证了所提方法的有效性。 3.针对多模态场景挑战,提出了一种基于可微分门控的深度神经网络迁移方法。该方法的核心思想是在多模态场景下从预训练模型中自适应地提取跨模态特征,并在不同模态之间实现精准对齐,以进行视觉-听觉多模态场景的知识迁移。具体地,该方法提出了一种可微分门控框架,引入双向门控引导模块对预训练模型进行特征搜索,通过联合的可微分优化方法在训练过程中学习一组动态门控掩码,这些掩码通过自适应地激活预训练模型的特征来检索特定的知识。随后,为了进一步利用迁移至目标域模型的知识,该方法引入了动态查询增强模块,根据提取到的不同模态的特征自适应地增强查询向量,从而缓解发声目标和背景区域之间的不平衡问题,帮助产生特定于发声目标的视觉掩码。最后,在视听分割的基准数据集上进行了大量实验证明了所提方法的有效性。 |
语种 | 中文 |
页码 | 138 |
源URL | [http://ir.ia.ac.cn/handle/173211/57426] ![]() |
专题 | 毕业生_博士学位论文 |
推荐引用方式 GB/T 7714 | 聂兴. 面向图像识别的深度神经网络迁移研究[D]. 2024. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。