中国科学院机构知识库网格系统: 基于时空建模的行为识别研究

中国科学院机构知识库网格

Chinese Academy of Sciences Institutional Repositories Grid

基于时空建模的行为识别研究

文献类型：学位论文


作者	罗锦钊
答辩日期	2023-06
文献子类	硕士
关键词	行为识别人体骨架注意力机制时空建模
英文摘要	随着计算机算力提升和视频数据量的迅速增长，智能视频分析成为了计算机视觉的一个重要研究方向。人体行为识别作为其中一个子方向，在人机交互、虚拟现实、视频分析、智能监控和健康养老等领域具有广泛的应用前景。最近，行为识别领域中的深度学习方法发展迅速，但无论是基于 RGB 视频的行为识别还是基于骨架的行为识别都存在一定不足。RGB 视频行为识别使用深度神经网络，如循环神经网络、卷积神经网络等，或 Transformer 架构提取视频中的时空信息。然而，这类方法容易受到复杂背景、光照条件等环境因素影响，还存在输入数据信息冗余和时空上下文关系建模不足等问题。随着传感器的不断发展，人体骨架数据作为一种紧凑高效的人体结构表达形式逐渐成为行为识别的重要基础数据之一。基于骨架的行为识别能够避免复杂背景的影响，在时空特征表达方面更加高效，但其对局部动作特征建模和远距离关节点关系表达不足。因此，本文旨在探索行为的局部特征建模和时空关系建模。主要研究工作和贡献如下： (1) 针对当前骨架行为识别方法对局部动作特征的建模能力不足以及对行为空间关系表示不充分的问题，提出了基于时间通道拓扑增强卷积网络的骨架行为识别方法。该网络利用通道注意力增加关键节点和关节在分类中的权重，引入通道距离矩阵动态建模不同动作下的远距离节点关系，以构建鲁棒的局部动作特征表示，提高行为识别准确率。所提方法在骨架行为识别数据集 NTU RGB+D、 NTU RGB+D 120 和 FineGym 上进行了评估，与现有方法相比显示出优越的性能。 (2) 针对 RGB 视频输入信息冗余，以及复杂行为场景上下文信息建模不足的问题，提出了基于时间差分融合卷积网络的行为识别与检测方法。时间差分卷积卷积网络使用双流架构分别提取表观静态信息和行为运动信息；利用时间差分模块对行为交互区域的行为表观信息进行建模，减少输入信息冗余；引入通道融合注意力模块提取时空行为特征，并建模行为-场景上下文关系；基于 YOLO 检测框架实现行为识别与检测。在 UCF101-24、J-HMDB-21 和 AVA 数据集验证模型的有效性，准确率分别达到了 82.1%，78.1%，18.8%。这两项研究的重点是基于卷积神经网络对时空行为特征进行建模。其中，第一项研究强调局部动作特征的建模，是实现复杂行为识别的基础，所使用的骨架数据模态可以作为第二项研究中使用的 RGB 模态的扩展和补充。第二项研究专注于复杂行为的时空上下文关系建模，其模块化设计结构能够集成不同的模态，增强模型的时空特征建模能力，提高视频行为识别的准确性。
语种	中文
页码	61
源URL	[http://ir.ia.ac.cn/handle/173211/52288]
专题	毕业生_硕士学位论文
推荐引用方式 GB/T 7714	罗锦钊. 基于时空建模的行为识别研究[D]. 2023.

入库方式： OAI收割

来源：自动化研究所

浏览0

下载0

收藏0

其他版本

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。