中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
基于密集特征学习的图像关键点检测与描述方法研究

文献类型:学位论文

作者王常维
答辩日期2024-05-10
文献子类博士
关键词{图像关键点检测与描述 密集特征学习 归一化技术 一致性注意力机制 知识蒸馏
英文摘要

图像关键点检测与描述是计算机视觉中的一项基础性研究话题,其任务是从给定的图像中找出代表性的像素并在这些像素位置上提取对应的局部描述子,进而可以通过匹配不同图像中局部描述子,建立图像间像素级的稀疏对应关系。经过二十多年的发展,图像关键点检测与描述方法的研究由传统基于知识的手工设计时代来到基于深度学习的数据驱动时代。全卷积神经网络(Fully Convolutional Networks, FCN)是一种特殊的卷积神经网络架构,它主要应用于图像语义分割等密集预测任务。FCN通过完全移除传统卷积神经网络中的全连接层,并代之以卷积层,允许网络在不同尺度的输入上进行端到端的训练和预测。这种设计促进了密集特征学习,可以在图像的每个位置同时提取密集特征。而近期,基于密集特征学习的图像关键点检测和描述方法,由于可以利用全图的上下文信息,并且可以端到端地并行执行关键点的检测和描述任务,所以展现出卓越的性能以及广泛的应用潜力。本文针对基于密集特征学习的图像关键点检测与描述的方法展开以下研究:提出了一种基于交叉归一化的图像局部描述子提取方法。长期以来,大多数基于手工设计和基于学习的局部描述子提取方法,都采用L2范数归一化来对局部描述子进行规范化,以将描述子空间投影到固定的超球面上。虽然超球面描述空间可以稳定模型优化过程并提高局部描述子匹配中的可重复性,但它也会导致局部描述子之间的分布变得更加密集,从而降低相邻描述子之间的区分度,并导致一些错误的匹配。针对上述问题,本文提出了一个可学习的交叉归一化技术,以作为L2范数归一化的一种替代方案,设法在稳定优化过程的同时,也保留更多区分性信息,从而让局部描述子在描述空间呈现更合理的分布。与此同时,本文提出了一个名为``高效特征复用骨干网络''的密集特征提取架构,此架构可以高效地复用骨干网络提取的浅层特征,以在不显著增加模型参数规模的前提下,提升神经网络的表征能力。此外,本文还提出了一种名为``图像级分布一致损失''的损失函数,其通过对局部描述子的分布空间施加图像级的一致性约束,来进一步提高局部描述子的判别性和鲁棒性。基于上述创新,本文提出了一个基于交叉归一化的图像局部描述子提取方法。该方法的有效性在图像匹配、单应性估计、三维重建和视觉定位等多个下游任务上得到了充分验证。提出了一种基于非局部信息增强的图像关键点检测与描述方法。当前基于深度学习的图像关键点检测和描述方法大多采用常见的卷积神经网络作为特征提取器,而受限于卷积神经网络固有的局部性归纳偏置,这些方法仅能利用有限感受野内的局部信息来学习局部描述子,导致它们缺乏对更大范围的周边上下文以及全局上下文的感知能力。此外,在训练过程中,基于深度学习的局部描述子大多只对采样的关键点,进行点对点的度量学习优化,而没有考虑利用图像的全局信息,这使得局部描述子优化过程缺乏灵活性和对图像的适应性。针对上述问题,本文提出了一种基于非局部信息增强的图像关键点检测与描述方法,旨在利用非局部信息来使局部描述子可以“看得更远从而描述得更好”,希望从“管中窥豹”提升到“高屋建瓴”。具体而言,本文引入非局部上下文增强和一致性空间注意机制,使描述子在特征提取和训练优化过程中获得超越局部属性的感知能力。首先,本文提出了自适应全局上下文增强模块和多样性周边上下文增强模块,用以构建汇集从全局到周边各层次上下文信息的特征提取架构。其次,本文提出了一致性空间注意力加权度量损失,将空间注意力感知集成到局部描述子的优化和匹配阶段。最后,本文提出了基于特征金字塔的局部特征检测方法,以获得更加稳定和准确的关键点定位。本文在图像匹配、单应性估计和视觉定位等多个任务上对提出的方法进行了深入的实验验证,结果表明所提出的方法达到了当前最先进水平。 提出了一种基于知识蒸馏的高效图像关键点检测与描述方法。因为图像关键点检测和描述是许多视觉应用的关键底层技术,所以关键点检测与描述的匹配精度和运行效率影响着这些应用的性能表现和部署落地。然而,当前大多数基于深度学习的图像关键点检测和描述的研究,都集中在匹配精度的提升上,而对运行效率的提升则关注的相对较少,导致当前方法参数量大、运行效率不高。针对上述问题,本文提出了一个性能强大而运行高效的基于知识蒸馏的高效图像关键点检测与描述方法以求获得最优的匹配精度和运行效率平衡。首先,本文提出了一个十分轻量的骨干网络,高效地提取密集特征用于图像关键点检测和描述,并将网络的整体参数量缩小到0.17兆字节。为了让轻量网络表现出更高的匹配性能,本文还在图像关键点检测和描述话题中首次引入知识蒸馏技术。本文探索了不同蒸馏形式对图像关键点检测和描述的作用,并提出了一个二阶描述空间蒸馏策略以提高轻量模型的匹配性能。本文在图像匹配、单应性估计、三维重建和视觉定位等多个下游任务上,对所提出的方法的精度和效率进行了评估。实验结果表明,本文提出的方法是首个在消费级显卡上运行效率超过100FPS(Frames Per Second)的基于深度学习的图像关键点检测与描述方案,并保持着极具竞争力的匹配精度。总而言之,通过以上研究工作,本文有效地提高了基于密集特征学习的图像关键点检测和描述方法的匹配精度和运行效率。

语种中文
页码126
源URL[http://ir.ia.ac.cn/handle/173211/56644]  
专题模式识别国家重点实验室_三维可视计算
推荐引用方式
GB/T 7714
王常维. 基于密集特征学习的图像关键点检测与描述方法研究[D]. 2024.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。