基于特征学习和关系推理的视频行为识别
文献类型:学位论文
作者 | 胡古月![]() |
答辩日期 | 2021-05 |
文献子类 | 博士 |
授予单位 | 中国科学院大学 |
授予地点 | 中国科学院自动化研究所 |
导师 | 余山 |
关键词 | 视频理解 行为分析 特征学习 关系推理 |
学位名称 | 工学博士 |
学位专业 | 模式识别与智能系统 |
英文摘要 | 视频行为识别是计算机视觉领域一个重要的研究问题,它在人机交互、智能监控、视频检索、自动驾驶、虚拟现实等领域有广泛的应用前景。依照时空复杂程度,视频行为可以划分为简单动作 (action)、群体活动 (group activity) 和长时活动 (long activity),群体活动是简单动作在空间上的组合,长时活动是简单动作在时间上的组合。本文从特征学习和关系推理两个角度出发,针对不同数据模态和不同时空复杂度的视频行为开展研究,以期实现低标注、高效率、高精度的视频行为识别。具体选取计算高效的骨架视频、应用最广泛的 RGB 视频、以及视频与文本相结合的多模态视频三种代表性的行为数据,研究了简单动作、群体活动和长时活动三类由简单到复杂的视频行为的识别问题,提出了基于特征学习和关系推理的一系列新方法,有效地提升了视频行为识别的性能。具体的研究内容包括: 第一,面向骨架视频中的简单动作 (action),本文提出了一种基于时空频域联合学习的动作识别方法。早期骨架视频中的动作识别方案主要基于时空域的各类局部神经网络,它们局限于时空特征的学习而忽略了行为固有的频域模式,同时在普通局部神经网络中局部细节和非局域部语义的提取存在异步的问题。因此,本文提出了一种时空频域联合学习的动作识别方案。具体地,在时空域,提出了局部与非局部同步的时空学习模块,使得网络各层都能同步挖掘局部细节和非局部语义信息;在频域,构建了频域注意网络,使模型不仅具备了自动关注频域动作特征的能力,还能与主流时空网络良好兼容、优势互补。 第二,通过将常见多流动作识别网络的多分支优化问题转化为一个虚拟的多任务学习问题,本文提出了一种适配于常见多流动作识别网络的伪多任务互助学习策略。具体地,为优化多流网络中单分支的特征学习过程,提出了一种软间隔聚焦损失函数,引入了正负样本分类器间的分类软间隔,实现了困难样本的自动聚焦。同时,为促进多流网络中跨分支特征学习的协作,提出了一种新颖的互助学习策略,使得网络各个分支互相约束、互助学习。本文以基于骨架视频的多流动作识别网络为例,在四个大规模骨架动作识别数据集上,通过实验系统性地验证了该伪多任务互助学习策略的有效性和鲁棒性。 第三,面向 RGB 视频中的群体活动 (group activity),本文提出了一种基于渐进式特征学习和关系推理的群体活动识别方法。针对视频群体活动存在的参与者众多、个体间交互频繁、视频和个体噪声较大等突出问题,提出了一种基于渐进式特征学习和关系推理的识别方法。利用低层次的个体时空特征和空间位置关系构建关系图网络,显式地建模了群体活动中复杂的语义关系;进一步通过两个基于强化学习的智能体,分别在高层次语义关系层面和低层次时空特征层面对场景语义关系图进行精炼和推理。具体地,一个关系门控智能体在高级语义关系的层面,渐进地精炼出与群体语义高度相关的语义关系;一个特征蒸馏智能体在低层次时空特征的层面,渐进地蒸馏出高信息量的个体时空特征帧。最后,通过轮替优化策略,迭代地更新语义关系图、关系门控智能体和特征蒸馏智能体,有效地提高了群体活动识别的性能。 第四,面向多模态教程视频中的长时活动 (long activity),本文提出了一种基于结构化先验学习和推理的教程长时活动分析方法。多模态教程视频的分析对象是以步骤为代表的长时活动,同时天然存在弱对齐的视频文本对。本文提出了一种基于结构化先验学习和推理的教程长时活动分析方法。利用视频文本对的跨模态语义一致性,通过对比学习获取行为活动的自监督视觉语言联合表示。基于该先验表示构造层级化的先验知识图,显式地建模了层级化的行为活动概念。进一步通过深度随机游走的方式对先验知识图进行图嵌入学习,使得各节点的节点嵌入最终编码进了各层知识图的结构化先验。最后,下游任务的查询样本通过相似性匹配的方式在层级化知识图的各层匹配和提取包含结构化先验的增强表示来提升任务性能。在行为分割、文本视频检索、时序步骤定位等一系列下游任务上的大量实验结果,系统性地验证了该方法的有效性。 总的来说,本文沿着单模态到多模态、简单动作到组合活动、受控场景到开放环境的研究路线,针对三种典型数据模态下不同时空复杂度的视频行为识别存在的问题,提出了基于特征学习和关系推理的一系列新方法,一方面成功地提升了行为识别的性能,另一方面有效地缓解了识别算法对人工标注的过度依赖,有望缩小视频行为识别学术研究与实际应用之间的距离。 |
语种 | 中文 |
页码 | 126 |
源URL | [http://ir.ia.ac.cn/handle/173211/44605] ![]() |
专题 | 毕业生_博士学位论文 |
推荐引用方式 GB/T 7714 | 胡古月. 基于特征学习和关系推理的视频行为识别[D]. 中国科学院自动化研究所. 中国科学院大学. 2021. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。