中国科学院机构知识库网格系统: 连续视觉地点识别及应用研究

中国科学院机构知识库网格

Chinese Academy of Sciences Institutional Repositories Grid

连续视觉地点识别及应用研究

文献类型：学位论文


作者	熊宇
答辩日期	2024-05-16
文献子类	硕士
关键词	视觉地点识别连续学习深度学习
英文摘要	视觉地点识别旨在通过分析图像中的视觉内容来确定其对应的地理位置，在导航、智能驾驶和机器人系统等领域发挥着重要作用。随着深度学习技术的不断发展，视觉地点识别取得了显著的进展，成为计算机视觉领域的一个重要研究方向。然而，在实际应用中，视觉地点识别仍然存在一些挑战，包括在视角、外观和光照变化等场景下的特征鲁棒性问题，以及连续学习场景下的灾难性遗忘问题。首先，当前的视觉地点识别方法主要通过对图像进行特征表示，然后在数据库中搜索最佳匹配。特征表示包括全局特征和局部特征。全局特征具备对地点的整体理解和快速匹配能力，但在处理视角、外观和光照变化等情况时表现不佳。局部特征可以提高鲁棒性，但往往伴随着较高的计算和内存消耗。因此，需要更有效的方法来充分利用全局特征的优势，同时克服其在特征鲁棒性方面的挑战，以满足大规模视觉地点识别的需求。其次，视觉地点识别可能面临泛化问题，如城市扩展和跨城市应用。由于数据分布的差异，模型在新环境中的性能会显著下降。尽管微调可以改善这一问题，但往往伴随着灾难性遗忘，即模型遗忘了旧环境的知识，无法在所有环境中保持优异性能。连续学习技术能够应对这一困境，使模型在学习新环境的同时保留旧环境知识。因此，需要研究如何将连续学习技术合理地应用于视觉地点识别中，以确保模型在多种环境下的稳定性能。针对上述问题，本文的主要内容和贡献点如下：（1）针对视觉地点识别中的特征鲁棒性问题，本文认为当前的三元组损失方法未充分考虑样本之间的排序信息，可能导致模型无法有效地区分地点之间的差异，进而影响全局特征的鲁棒性。因此，本文提出了基于距离排序的加权三元组损失方法，充分考虑了样本间的重要性排序信息。通过引入距离排序加权机制，有效地调整损失函数的权重，提高了对重要三元组的关注，使得训练过程更为有效。实验结果表明，在多个测试集上，该方法在视觉地点识别任务中取得了显著的性能提升，并且在处理视角、外观和光照变化时表现出较好的鲁棒性。（2）针对视觉地点识别在新环境中出现的灾难性遗忘问题，本文提出了连续视觉地点识别任务，并设计了相应的模型架构和训练流程。该任务结合了样本回放和知识蒸馏策略，通过回顾先前观察到的数据样本和引入额外的蒸馏损失，来确保模型在学习新环境的同时保留旧环境的知识，以缓解灾难性遗忘问题。实验结果表明，引入连续学习技术后，模型在逐步学习多个环境后依旧保持对所有环境识别的准确性。（3）针对连续学习技术在视觉地点识别中应用的合理性问题，本文发现现有蒸馏方法对新旧环境的特征分布施加了一定的约束，这种约束可能阻碍相同地点特征向量的接近以及不同地点特征向量的远离，从而对视觉地点识别的性能产生不利影响。因此，本文提出了角度约束蒸馏损失方法，该方法通过维持三元组规范化特征向量的角度一致性，而不对特征分布施加限制，从而避免了对视觉地点识别性能的干扰，进一步缓解了灾难性遗忘问题。实验结果表明，相较于其他连续学习方法，该方法在连续视觉地点识别中取得了更好的性能。
语种	中文
页码	68
源URL	[http://ir.ia.ac.cn/handle/173211/56581]
专题	毕业生_硕士学位论文
推荐引用方式 GB/T 7714	熊宇. 连续视觉地点识别及应用研究[D]. 2024.

入库方式： OAI收割

来源：自动化研究所

浏览0

下载0

收藏0

其他版本

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。