基于深度神经网络的运动检测与识别研究
文献类型:学位论文
作者 | 杜杨![]() |
答辩日期 | 2019-05-25 |
文献子类 | 博士 |
授予单位 | 中国科学院自动化研究所 |
授予地点 | 中国科学院自动化研究所 |
导师 | 胡卫明 ; 原春锋 |
关键词 | 深度神经网络,视频运动分析,运动检测与识别,动态目标检测,人体行为识别 |
学位名称 | 工学博士 |
学位专业 | 模式识别与智能系统 |
英文摘要 | 视频中的运动检测与识别是计算视觉领域的重要任务,受到学术界、工业界和商业界的广泛关注,可以广泛应用于人机交互、智能监控、安防等重要领域。运动检测是将视频中的动态前景目标与背景进行分割的检测技术,也被称作动态目标检测,是后续高层级计算机视觉技术的基础之一。人作为社会的主导者,是动态目标中的主体,因此对人体目标的行为进行识别具有重要的研究意义和应用价值。近几年,深度神经网络模型的复兴,引发了新一场计算机视觉领域的人工智能革命,也给动态目标检测和行为识别领域注入了新的活力。深度神经网络模型虽然曾沉寂过一段时间,但随着硬件技术的进一步发展,其潜力被进一步挖掘,更多的落地应用期待被实现。因此,研究深度神经网络背景下的动态目标检测和人体行为识别任务具有重要的理论意义和应用价值。 本论文从考查视频运动检测与识别的特点出发,研究了深度神经网络模型下的动态目标检测和人体行为识别技术。论文的主要工作和创新点归纳如下:
1.提出了一种基于深度时空自组织神经网络的动态目标检测算法
动态目标检测中,对复杂背景运动的时空特性进行建模是一件极具挑战的事情。本文分析得到复杂背景的运动,具有在空间上的全局变化特性和时间上局部变化的特性。因此,1)提出一个新的可以被视频帧中所有像素点共享权值的时空自组织神经网络。本文使用视频整帧的变化序列和单个像素位置随着时间变化的序列,来训练提出的时空自组织神经网络。该网络可以对复杂背景有效地进行建模和跟踪。2)提出一个基于贝叶斯参数估计的方法,来为每个像素位置自动地学习判定前景或者背景的阈值参数。3)为了对复杂背景运动更精确地进行建模,本文将提出的单层时空自组织神经网络扩展到一个深度网络结构,并在国际公开数据库上取得了领先的结果。
2.提出了一种基于层级非线性正交自适应子空间自组织神经网络特征提取的多样本行为识别算法
对人体目标实现行为识别,基于局部特征描述的多样本行为识别中的特征提取是一个关键步骤。传统手工特征常因其固定的形式而受到限制,深度学习特征表征能力更强但通常需要大规模的标签数据。因此,本文提出一个新的层级非线性正交自适应子空间自组织神经网络,来自适应地、无监督地从大规模数据中学习有效的特征。1)通过构建一个非线性正交映射层,改进后的网络模型可以处理非线性输入数据,然后使用核函数技巧避免定义具体的非线性映射函数形式和保证映射后正交基向量的正交性。2)修改目标损失函数,使网络可以有效地、无监督地从大数据中学习特征模式。3)提出层级的深度结构来提取更具表征能力的高层特征。国际公开数
据库结果表明提出的新的无监督特征性能超过了传统的手工特征和部分深度学习特征。 3.提出了一种基于时空金字塔交互感知注意力机制网络的多样本行为识别算法
对人体目标实现行为识别,很多基于端到端网络的多样本行为识别方法忽略了对关键人体行为区域的定位与检测。而视频中不仅帧内有大量与人体行为无关的信息,在帧间也包含很多行为时序信息。自注意力机制可以实现深度神经网络对关键区域的检测,其使用特征内部元素的加权和或者其它函数,获得特征的注意力得分,没有考虑特征间的相关性。但特征图中相邻空间位置的局部特征因感受野具有很高的重叠度,而具有很高的相关性。因此,1)本文提出受主成分分析(PCA)启发的交互感知注意力机制,以消除相关性并提取特征图中关键局部特征。2)使用深度网络中不同尺度的特征图,构建空间特征金字塔,利用多尺度信息计算更精确的注意力得分。3)提出的网络层与输入特征图的数量无关,因此,被扩展到一个时空版本。4)提出的网络层可以被嵌入到通用的深度卷积神经网络中,构成一个视频级的深度神经网络。国际公开数据库的结果表明了提出的网络的通用性和有效性。
4.提出了一种基于特征变换度量网络的少样本行为识别算法
对人体目标实现行为识别,样本数量的限制是其面临的另外一个问题。样本过少会造成深度网络的过拟合训练,从而导致各个行为新类别的特征分布零散,难以进行高精度的分类。余弦相似度和欧氏距离只考虑了特征间角度或者几何空间距离中的一种度量方式,从而会造成度量的不精确性。本文提出一种新的基于度量学习的少样本分类模型来解决上面提到的限制。1)本文提出了一种特征变换网络,通过实现缩小同类特征之间的距离来减小类内距离,通过移动类中心位置来增加类间距离。具体而言,在训练阶段学习每个特征与其正确行为类中心之间的非线性残差,在测试阶段将网络预测的非线性残差与原特征相加,使其移动到正确行为类中心的偏移位置。2)本文提出了一种特征度量网络,可以有效地学习适应数据类型的度量参数,并且利用余弦相似度作为权重来对欧式距离进行加权。新的度量方式同时考虑了特征角度和几何距离的影响。在国际公开数据库上显著提升的实验结果,表明了本文提出的少样本行为识别深度网络框架的有效性,以及度量网络的通用性。
总的来说,本文分析了视频运动检测与识别中一些亟待解决的关键问题,并提出了较好的解决方案,提出的算法大幅度提升了动态目标检测与人体行为识别的性能,并在多个国际公开数据库上取得了当时最好的结果。与此同时,本文提出的多样本学习下的人体行为识别算法已经在美图科技公司得到了实际应用,取得了一定的经济效益。 |
学科主题 | 模式识别 ; 计算机感知 ; 计算机神经网络 |
语种 | 中文 |
页码 | 161 |
源URL | [http://ir.ia.ac.cn/handle/173211/23804] ![]() |
专题 | 自动化研究所_模式识别国家重点实验室_视频内容安全团队 |
通讯作者 | 杜杨 |
推荐引用方式 GB/T 7714 | 杜杨. 基于深度神经网络的运动检测与识别研究[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2019. |
入库方式: OAI收割
来源:自动化研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。