中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
图像目标检测的深度学习模型与算法研究

文献类型:学位论文

作者何泽文
答辩日期2021-05
文献子类博士
授予单位中国科学院大学
授予地点中国科学院自动化研究所
导师张文生
关键词目标检测,深度学习,多尺度训练,图像数据扩增,旋转目标检测
学位专业模式识别与智能系统
英文摘要

随着互联网和多媒体的飞速发展与拍照设备的广泛普及,数字图像和视频的数据量迅速增长。如何高效地处理海量图像数据并从中提取关键信息变得愈发重要,而目标检测技术为此提供了解决思路。图像目标检测,即从图像中定位出所有可能的物体并进行分类。作为计算机视觉研究领域中的重要一环,在视频监控、自动驾驶、遥感影像处理、智能医疗等和社会生活息息相关的领域都有着广泛应用。因此,设计高效且鲁棒的图像目标检测算法具有显著的社会经济价值。

近年来深度学习在计算机视觉领域蓬勃发展,学术界提出了很多基于深度学习模型的目标检测方法。深度学习让图像目标检测的精度大幅提高的同时,仍然暴露出诸多亟待解决的问题和挑战。特别是,目标尺度变化影响模型精度;小型目标的检测难度大;遮挡场景中的物体漏检和误检较多;检测模型的精度和速度需求难以平衡。面对这些挑战,本文以深度学习模型为基础,分别从模型的多尺度训练、面向遮挡场景的数据扩增方法以及实时高精度的旋转检测等方面进行了深入研究,以进一步提高检测模型的精度和实用性。

本文主要的研究内容和贡献归纳如下:

1. 提出了一种一致尺度规范化的多尺度训练算法(Consistent Scale Normalization,CSN)。首先,算法针对目标尺度变化剧烈导致物体的实际感受野与其真实范围不一致的问题,提出无效尺度目标框忽略策略,仅选择正常尺度范围的目标参与训练,以提高模型在正常尺度目标上的检测精度;其次,算法针对正常尺度样本缺乏的问题,提出基于局部图像块切分的多尺度缩放策略,让训练集的所有物体都能进入正常尺度范围参与优化;最后,算法针对正常尺度范围不够宽的问题,集成了特征金字塔网络来降低检测网络的学习难度,同时扩大了正常尺度的适用范围。在MS COCO等公开基准数据集上进行了算法的实验验证,结果表明:所提训练算法给多种检测模型带来的精度提升显著优于竞争方法,同时为实例分割、姿态估计等感知任务带来了稳定的性能提升。

2. 提出了一种图像和标签一致的数据扩增算法(COnsistent data auGmentation,COG)。针对传统基于局部块删除的图像扩增方法用于目标检测会导致图像和标签语义不一致的缺陷,提出一种面向该类扩增方法的标签自适应修正算法。算法首先对扩增后图像中各个物体被局部块遮挡的程度进行定量分析;其次,依据各个物体的遮挡程度对目标框做出自适应修正,以使扩增图和目标标签间的语义尽可能一致。然后,算法采用贪心策略,对标签修正所用上下界超参数进行搜索,来快速获取最优解。在MS COCO等公开基准数据集上进行了算法的实验验证,结果表明:所提扩增算法给目标检测、实例分割等任务带来的精度提升显著优于竞争方法。

3. 提出了一种掩膜引导的无锚点框航拍旋转检测模型(Mask guidEd Anchor free Detector,MEAD)。首先,针对航拍旋转目标检测模型的速度和精度难以平衡的问题,提出基于全卷积网络的无锚点框旋转检测网络,以提高模型的运算速度和对不同场景的适应能力。其次,针对传统无锚点框旋转检测方法精度不高的问题,提出无锚点框级联检测模块,以逐级修正旋转目标的位置,进而精准提取备选目标特征;然后,针对级联检测速度不高的问题,提出特征重提取模块,利用可变形卷积高效并行提取备选框特征;最后,针对预测框假阳性率高的问题,提出掩膜引导分支模块,采用伪掩膜标签引导网络特征更多地关注前景区域,以增强目标特征的判别性。在DOTA等公开数据集上进行了模型的实验验证,结果表明:MEAD在检测精度和速度上都优于主要的对比方法且模型的各个模块都是必要且有效的。

语种中文
页码130
源URL[http://ir.ia.ac.cn/handle/173211/44992]  
专题精密感知与控制研究中心_人工智能与机器学习
推荐引用方式
GB/T 7714
何泽文. 图像目标检测的深度学习模型与算法研究[D]. 中国科学院自动化研究所. 中国科学院大学. 2021.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。