复杂场景中行为识别的关键技术及方法研究
文献类型:学位论文
作者 | 周文 |
学位类别 | 工学博士 |
答辩日期 | 2014-05-29 |
授予单位 | 中国科学院大学 |
授予地点 | 中国科学院自动化研究所 |
导师 | 王春恒 |
关键词 | 复杂场景 视角 局部特征 多示例学习 马尔科夫模型 行为识别 姿态估计 complex scenes viewpoints local features multiple-instance learning Markov model action recognition pose estimation |
其他题名 | Research on Key Technologies of Activity Recognition in Complex Scenes |
学位专业 | 模式识别与智能系统 |
中文摘要 | 随着视频数据的快速增长,如何对视频数据进行有效地管理成为亟需解决的问题,其中对视频中人的行为进行识别是其关键技术之一。视频中人的行为识别在人机交互、智能监控和基于内容的检索方面有着广泛的应用价值。因此,行为识别成为近年来的研究热点之一。由于该领域的迅猛发展,已有的研究工作已经基本解决了简单场景下(单一行为、简单背景、无其他运动干扰)的行为识别这一问题。近年来,研究工作的重点从简单场景下的行为识别问题过渡到复杂场景下的行为识别问题。复杂场景中的行为识别具有丰富的视角变化、较多的背景运动噪声以及多个目标运动等特点,这些特点造成了复杂场景下难以获得鲁棒行为表示的问题。针对这个问题,本文进行了深入的研究。本文的具体研究工作可归纳如下: 1)本文研究了基于共生关系建模的行为识别方法。针对局部特征之间以及局部特征与视角特征之间关系的共性,即共生关系,本文提出两种方法分别对局部特征间的时间约束关系,以及局部特征与视角特征之间同时出现的约束关系进行建模。首先,考虑到局部特征之间时间上的共生关系,本文提出一种基于局部特征共生关系建模的行为识别方法。该方法对局部特征间丰富的时间关系进行了编码,并刻画了行为的细节信息。实验结果表明该方法在行为识别中的有效性。其次,考虑到视角特征对局部特征的影响,本文提出一种对局部特征与视角特征之间共生关系进行建模的方法,该模型在一定程度上克服了复杂场景下由于视角变化所带来的局部特征变化的影响,提升了对视角变化的鲁棒性,并提高了复杂场景下行为识别的性能。 2)本文研究了局部运动块在行为表示和行为识别中的作用,并提出一种基于中层特征:局部运动块的行为表示。受目标检测中局部图像块的启发,局部运动块定义为局部特征在一个局部时空区域内的排列。它反映了目标的一部分在一个局部时空区域内的运动。通过局部运动块,本文将行为表示成这些局部运动块的稀疏线性组合。由于考虑了局部特征之间时空排列的统计特性,该方法能够有效地对背景噪声进行抑制。除此之外,由于背景噪声不能够被局部运动块线性表示,因此大部分的背景噪声被忽略。本文利用稀疏表示的框架获得了行为的中层特征表示,提升了对背景噪声的鲁棒性,并提高了系统性能。 3)本文研究了局部运动块之间的时间关系,并提出一种基于多示例马尔科夫模型的行为识别方法。该方法将局部运动块之间的时间相继的关系看作局部运动块的状态转移,并通过对状态转移的编码来对局部运动块之间的时间关系进行编码。与传统基于马尔科夫模型的方法相比,本文除了对局部运动块之间相邻的时间关系进行编码,还利用时间金字塔对局部运动块之间长距离的时间关系进行编码。由于局部运动块选择的不确定性,本文利用多示例学习的框架从多条马尔科夫链的行为表示中选择一条具有判别能力的马尔科夫链来表示行为。鉴于复杂场景下包含大量的背景运动噪声,本文提出一种基于显著性区域的背景噪声抑制方法。该方法通过对视频帧中的显著性目标进行估计获得显著性区域图,并通过该图对背景噪声进行抑制。实验结果表明,本文提... |
英文摘要 | With the rapid growth of video data, how to efficiently manage the video data is becoming the most urgent problem and one of the key technologies is to recognize human action in video data. Human action recognition has wide applications in human-computer interactions, intelligent surveillance and content-based video retrieval. Thus, human action recognition becomes an active topic in recent years. With the rapid growth of this field, previous researches have basically solved the problem of human action recognition under simple scenes (single action, simple background and no other actions’ disturbance). Recently, the emphasis of action recognition has shifted from simple scenes to complex scenes. Action recognition under complex scenes has several characteristics including: many background noises, rich changes in viewpoints and the movements of multiple objects. These characteristics result in the difficulty of action recognition. In this thesis, we attempt to address these issues. Our contributions include: 1) We propose two related approaches that model two different types of co-occurrence relations for human action recognition. First, considering the temporal co-occurrence relations among local features, we propose to model temporal relations among local features for human action recognition. This method encodes rich temporal relations of local features for action representation, and it characterizes the details of action. Experiments show the effectiveness of the proposed method. Second, considering the effect of viewpoint on local features, we propose to model the co-occurrence relations between local features and viewpoints. To some extent, this model addresses the issues that the viewpoints features change the appearance of local features significantly and it improves the robustness of action representation. Besides, it also prompts the recognition accuracy under complex scenes. 2) We propose a new type of mid-level feature: the movements of local regions for action representation. Inspired by the success of local regions in object recognition, the movements of local regions are defined as the arrangements of local features. They represent the movements of body parts. Based on the movements of local regions, we represent action as the linear combination of these movements of local regions. Since we consider the statistical properties of the spatial and temporal arrangement of local features, our method is robust to background noises. Besides, s... |
语种 | 中文 |
其他标识符 | 201118014628078 |
源URL | [http://ir.ia.ac.cn/handle/173211/6639] ![]() |
专题 | 毕业生_博士学位论文 |
推荐引用方式 GB/T 7714 | 周文. 复杂场景中行为识别的关键技术及方法研究[D]. 中国科学院自动化研究所. 中国科学院大学. 2014. |
入库方式: OAI收割
来源:自动化研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。