基于深度学习的人体行为识别研究
文献类型:学位论文
作者 | 杨浩![]() |
答辩日期 | 2019-05-25 |
文献子类 | 博士 |
授予单位 | 中国科学院大学 |
授予地点 | 中国科学院自动化研究所 |
导师 | 胡卫明 ; 原春峰 |
关键词 | 深度学习 卷积神经网络 递归神经网络 行为识别 |
学位名称 | 工学博士学位 |
学位专业 | 模式识别与智能系统 |
英文摘要 | 人体行为识别是指对视频序列中包含的人体行为进行分类,其在人机交互、智能监控、生活辅助及虚拟现实等领域有着广泛的应用前景。长期以来人体行为识别都是模式识别和计算机视觉领域一个热门的研究课题。传统的行为识别方法将行为识别分为手工特征设计与提取、行为分类两个过程。而这两个过程相互独立,使得行为识别的过程更加繁琐,且无法从视频中提取到具有判别性的时空特征。近年来,深度学习在语音识别、机器翻译及计算机视觉等诸多领域取得了突破性的进展。本文充分利用卷积神经网络、递归神经网络等深度学习方法各自的优势,提出了多种端到端的、高效的、鲁棒的行为识别深度模型。本论文的主要工作和贡献概括如下: 1.提出了一种基于时空注意机制的卷积神经网络并将其应用于行为识别 为了排除视频中的干扰信息,本文提出了一种基于时空注意机制的卷积神经网络(Spatial-Temporal Attention Convolutional Neural Network,STA-CNN)。该STA-CNN模型包含空间注意机制和时间注意机制,其中,空间注意机制使网络可以关注到运动显著的空间区域和具有判别力的非运动空间区域。时间注意机制使网络可以自动地从长时复杂视频中挖掘出具有判别力的时域片段。STA-CNN模型将空间注意机制和时间注意机制融合到统一的卷积神经网络框架中,并实现端到端训练。本文提出的STA-CNN模型在两个最具挑战性的行为识别数据库上均取得了当前最好的分类效果。 2.提出了一种增大差异的卷积神经网络集成方法并将其应用于行为识别 传统的网络集成方法训练的子网络具有相同的结构,并在统一的数据库上训练得到,使得子网络之间差异性小、互补性差,集成后对识别精度的提升非常有限。本文提出了一种增大差异的卷积神经网络集成方法(Diversity Encouraging Ensemble,DEE)。一方面,在训练过程中调整各个子网络的结构参数,从而增大子网络之间的差异性和互补性。另一方面,重复利用网络的中间状态和单调递减的学习率,可以大幅减少集成网络的训练时间。本文提出的DEE网络集成方法在两个最具挑战性的行为识别数据库上均获得了当时最好的分类效果。 3.提出了一种基于序列卷积神经网络的行为识别方法 卷积神经网络擅于抽象空间表观特征,而递归神经网络擅于建模时域动态关系。基于此,本文提出了一种序列卷积神经网络(Sequential Convolutional Neural Network,SCNN)。该SCNN网络充分融合了卷积神经网络和递归神经网络各自在表观抽象和时域建模中的优势。传统的递归神经网络只能处理向量化的特征表示,序列卷积神经网络将递归神经网络结构中的全连接替换成卷积连接,从而可以直接处理二维的图像或者特征。并且卷积运算的局部权值共享特性可以有效减少序列卷积神经网络的参数量和计算量。本文提出的序列卷积神经网络在所有同类的行为识别方法中取得了最高的识别精度。 4.提出了一种基于非对称三维卷积神经网络的行为识别方法 为了克服三维卷积参数多、计算复杂度高、训练困难等问题,本文提出了一种高效的非对称三维卷积,即用三个方向的非对称三维卷积近似传统的三维卷积。然后,本文融合多个不同尺度的三维卷积分支结构得到非对称三维卷积局部网络。最后,本文通过堆叠多层非对称三维卷积局部网络得到三维卷积深度网络,并将其应用于行为识别任务。实验结果表明,本文提出的非对称三维卷积神经网络在速度和精度上均超过了基于传统三维卷积神经网络的行为识别方法。 总的来说,本论文以解决自然场景中行为识别任务的实际困难为目标,利用当前流行的深度学习方法,针对当前行为识别方法中存在的问题提出了卓有成效的解决方法。并且针对不同神经网络模型提出了多种降参提速的方法,拉近了行为识别研究与实际应用的距离。 |
语种 | 中文 |
页码 | 152 |
源URL | [http://ir.ia.ac.cn/handle/173211/23871] ![]() |
专题 | 毕业生_博士学位论文 |
通讯作者 | 杨浩 |
推荐引用方式 GB/T 7714 | 杨浩. 基于深度学习的人体行为识别研究[D]. 中国科学院自动化研究所. 中国科学院大学. 2019. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。