中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
基于深度学习的骨架手势识别方法研究

文献类型:学位论文

作者刘建波
答辩日期2021-11-30
文献子类博士
授予单位中国科学院自动化研究所
授予地点自动化大厦13层第一会议室
导师向世明
关键词手势识别 骨架 3D 卷积神经网络 解耦表示 自注意力机制
学位名称工学博士
学位专业模式识别与智能系统
英文摘要

手势识别是计算机视觉领域的一个重要研究分支,其主要任务是通过算法让计算机感知人体手势动作并理解手势背后的意图,从而辅助下一步的交互决策。手势识别包括静态手势识别和动态手势识别。静态手势的差异主要体现在静态手型的变化上,而动态手势是一段连贯的手势动作,具有时间维度上的动态特征。两者在手语识别、人机交互和自动驾驶等领域都有广泛而重要的应用。
传统的手势识别方法将包含手部表观信息的RGB图像或包含手部深度信息的深度图作为输入。随着手部姿态估计技术的成熟,基于骨架的手势识别吸引了大量研究者的注意。骨架数据包含手部重要关节点的三维位置坐标。相比于RGB图像和深度图,骨架具有很多优点:骨架数据包含手势动作的高级语义信息,有助于进一步提取手势动作的时空特征;骨架数据可以通过旋转操作来统一视角,以此提高模型的鲁棒性;骨架数据相比于RGB图像和深度图占用更少的存储空间,能够设计更轻量的网络模型。因此,基于骨架的手势识别具有重要的研究价值。
目前基于深度学习的骨架手势识别方法取得了较好的结果,但仍然面临许多挑战,主要包括:对静态手势骨架的空间结构建模,对动态手势骨架序列的时空动态特征建模,对动态手势交互关节点局部时空特征的提取,对动态手势复杂时空特征的解耦和学习以及设计参数量更少速度更快的网络模型以便部署在计算资源受限的设备上。
本文针对以上挑战对基于骨架的静态手势和动态手势识别方法进行了深入研究,研究内容和创新点可以归纳为以下三个方面:
1. 提出了一种基于3D高斯体素建模的静态骨架手势识别方法。该方法将静态手势关节点在三维体素空间中进行3D高斯体素建模来描述手部关节点之间的空间相对位置关系。为了消除不同录制环境和手势位移造成的关节点位置坐标差异,在体素建模过程中,采用基于包围盒的骨架归一化方法,在最大化利用体素空间的同时保持各方向的尺度均衡。最终将静态手势骨架的高斯体素表示送入基于3D-CNN的卷积神经网络来提取静态手势的空间结构特征。该方法能够有效地建模手部关节点的空间相对位置关系并提取静态手势的空间结构特征以便进行准确的手势分类。实验结果展示了本方法对基于骨架的静态手势识别和人体姿态识别任务都具有优越的分类性能。
2. 提出了一种基于解耦表示学习的动态骨架手势识别方法。该方法将动态手势的复杂时空动态特征解耦成手型变化特征和手部位移特征,通过体素空间建模将手型变化特征建模成手型演化体,采用伪图像的建模方式将手部位移特征建模成手部位移图。为了弥补体素空间建模分辨率不足导致无法建模精细手型变化的问题,本方法设计了一种指尖相对位置特征用于专门描述细微手型变化。在此基础上,设计了一个基于3D-CNN的手型变化特征学习和基于2D-CNN的手部位移特征学习的双流信息融合与推理网络,实现了基于解耦表示学习的动态骨架手势识别方法。在三个动态手势识别数据集上的实验验证了本方法对动态骨架手势识别的有效性以及本方法每个模块设计的必要性。
3. 提出了一种基于层级自注意力网络的动态骨架手势识别方法。该方法受到手的层级结构启发,通过自注意力机制来逐层地聚合关节点、手指到整个手的时空动态特征。对于特定时刻的手势骨架,该方法使用自注意力模块来捕获每个手指中四个关节点的局部空间结构特征进而获得每个手指的空间结构特征,之后将手指空间结构特征通过自注意力机制融合成整个手的空间结构特征。在时间动态特征方面,通过时间自注意力模块来提取手指和整个手的时空动态特征。最后采用自注意力机制来融合手指和整个手的时空特征用于动态手势分类。在三个动态手势识别数据集上的实验验证了本方法对动态骨架手势具有优越分类性能的同时显著减少了网络的计算量。

语种中文
页码120
源URL[http://ir.ia.ac.cn/handle/173211/46592]  
专题自动化研究所_模式识别国家重点实验室_遥感图像处理团队
通讯作者刘建波
推荐引用方式
GB/T 7714
刘建波. 基于深度学习的骨架手势识别方法研究[D]. 自动化大厦13层第一会议室. 中国科学院自动化研究所. 2021.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。