标签稀缺条件下的视觉模型可迁移性研究
文献类型:学位论文
作者 | 许逸凡![]() |
答辩日期 | 2022-05-16 |
文献子类 | 硕士 |
授予单位 | 中国科学院自动化研究所 |
授予地点 | 中国科学院自动化研究所 |
导师 | 董未名 |
关键词 | 可迁移性 半监督学习 领域自适应 自注意力机制 |
学位专业 | 计算机技术 |
英文摘要 | 随着人工智能的蓬勃发展,以及深度学习技术的兴起,计算机视觉领域在近年来取得了巨大的成功。目前诸多的成功离不开大数据的发展和深度神经网络强大的拟合能力。然而,很多真实场景常常伴随着以下两点挑战:(1)数据标签的稀缺性:获取大量人为标注的样本标签是十分费时费力的;(2)测试环境的迁移性:一个训练好的视觉模型在投入实际应用时往往会遇到和训练环境不一样的测试环境。鉴于无标注的原始数据一般较容易获取,那么在获取大量无标签样本后令视觉模型学习到更强的可迁移性成为了一个值得研究的课题。本文旨在探索标签稀缺条件下的视觉模型的可迁移性,即利用有标签数据和一定无标签数据样本来学习能够适应多变测试环境的视觉模型。 针对可迁移性问题,本文认为学习算法和模型结构是相辅相成的,并从这两个角度出发展开探索。在学习算法方面,本文进一步拓展了传统领域自适应迁移任务,提出污染鲁棒领域自适应任务,使得模型不仅具备跨域可迁移性,还对训练时未曾见过的测试污染鲁棒。在模型结构方面,本文探索了基于纯自注意力机制的非卷积模型结构视觉Transformer(ViT)的可迁移性。本文贡献包括: (1)研究真实场景的污染鲁棒领域自适应算法问题。在传统的领域自适应任务基础上提出了污染鲁棒领域自适应任务。设计了一种基于域差异信息的无监督增广样本方式,在大幅度提升模型的跨域污染鲁棒性的同时进一步提升模型在原始领域自适应任务下的迁移能力。 (2)研究基于纯自注意力机制的非卷积模型结构视觉Transformer(ViT)的可迁移性问题。从理论和实验层面分析了ViT结构相比卷积神经网络在可迁移性上的优势及其原因。 (3)研究ViT结构的轻量化可迁移方法。针对传统ViT结构存在大量冗余计算、难以适用于密集预测任务的问题,本文利用ViT本身动态关联性计算的特性,设计了基于全局类注意力的动态稀疏标识更新策略,在轻量化ViT结构的同时可以保持原始的可迁移性能。 |
语种 | 中文 |
页码 | 60 |
源URL | [http://ir.ia.ac.cn/handle/173211/48504] ![]() |
专题 | 毕业生_硕士学位论文 |
通讯作者 | 许逸凡 |
推荐引用方式 GB/T 7714 | 许逸凡. 标签稀缺条件下的视觉模型可迁移性研究[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2022. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。