中国科学院机构知识库网格系统: 目标检测中的深层特征学习方法研究

中国科学院机构知识库网格

Chinese Academy of Sciences Institutional Repositories Grid

目标检测中的深层特征学习方法研究

文献类型：学位论文


作者	郭超旭
答辩日期	2020-05-29
文献子类	硕士
授予单位	中国科学院大学
授予地点	中国科学院自动化研究所
导师	潘春洪
关键词	图像，视频，目标检测，特征金字塔，渐进稀疏局部注意力
学位名称	工学硕士
学位专业	模式识别与智能系统
英文摘要	视觉目标检测是计算机视觉领域中一个关键的研究方向，是目标识别、目标跟踪和运动轨迹分析的基石。视觉目标检测在诸多实际应用场景中均扮演着至关重要的角色，被广泛应用于自动驾驶、生物特征识别和服务机器人等场景。近年来，深度学习网络通过提取深层语义特征，大幅提升了目标检测器的精度和泛化能力。尽管目标检测取得了显著的进步，但是目标多尺度变化、目标遮挡和运动模糊等问题依然会削弱深层特征的语义表达能力，从而降低目标检测的精度和鲁棒性。为此，本文围绕视觉目标检测这一问题，开展视觉目标特征学习的相关研究工作。通过设计新的深层网络模型，充分利用图像特征金字塔的多层次语义信息和视频中的时序信息来提升视觉目标检测的性能。本文的主要研究内容和贡献如下：面向图像目标检测任务，提出了一种增强特征金字塔结构。具体地，本文首先分析了特征金字塔在特征融合前、融合过程和融合后三个阶段的设计缺陷，然后在此基础上进行了以下三方面的改进：其一，在对不同层次的特征融合前，本文设计了一致性监督模块，对不同层次的语义特征施加一致的监督信号，缩小不同层次特征之间的语义差距；其二，在特征融合的过程，设计了残差特征增强模块，减少特征金字塔最高层语义特征的信息损失，保留更多的原始语义特征；其三，针对特征融合后的区域特征池化，设计了区域特征自适应融合模块，这个模块能够不依赖人工设计的规则，自适应地融合来自不同层级的区域特征，从而产生更加鲁棒的区域特征。所提出的增强特征金字塔具有较强的泛化性，其与多个特征提取网络和目标检测框架结合，在大型的目标检测数据集MS COCO上的平均精度能取得接近2% 的提升。面向视频目标检测任务，设计了一个渐进稀疏的局部注意力模块，该模块通过提取和传递视频中的时序信息来帮助视频目标检测器学习更鲁棒的深层特征。具体地，渐进稀疏的局部注意力模块通过在一个局部区域内对不同帧的特征建立空间对应关系，进而利用空间对应关系对特征进行对齐和传递，并从中提取出视频的时序上下文信息。在此基础上，本文所构建的视频目标检测器不依赖额外的光流模型来对齐特征，因此可以避免由于光照变化和物体运动幅度大等情况导致光流预测不准确，进而影响检测精度的问题。同时，由于本文所构建的视频目标检测器不依赖光流模型，模型的参数量接近了接近37 M，模型实际部署的难度也得到降低。本文在大型的视频目标检测数据集ImageNet VID 上进行实验，实验结果表明本文提出的视频目标检测器能够取得领先的检测精度（80% mAP），同时速度也保持在较高的水平（26 FPS）。
学科主题	计算机科学技术
语种	中文
页码	60
源URL	[http://ir.ia.ac.cn/handle/173211/39102]
专题	自动化研究所_模式识别国家重点实验室_遥感图像处理团队
推荐引用方式 GB/T 7714	郭超旭. 目标检测中的深层特征学习方法研究[D]. 中国科学院自动化研究所. 中国科学院大学. 2020.

入库方式： OAI收割

来源：自动化研究所

浏览0

下载0

收藏0

其他版本

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。