中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
基于多标签分类的属性识别问题研究

文献类型:学位论文

作者李乔哲
答辩日期2019-12-04
文献子类博士
授予单位中国科学院自动化研究所
授予地点北京
导师黄凯奇
关键词属性识别 多标签分类 行人属性识别 群体属性识别
学位名称工学博士
学位专业模式识别与智能系统
英文摘要

视觉属性识别是计算机视觉领域中的一个重要研究方向,它在行人检索、场景理解和群体事件分析等任务中发挥着重要作用。属性识别本质上属于多标签分类任务,因此,如何准确地识别图像或视频中的多种属性标签是属性识别领域的关键问题。为了解决这一问题,本文对基于多标签分类的属性识别方法展开了一系列研究。在属性识别中,不同属性往往和不同的视觉信息相关,而一系列现实因素却对属性相关特征的有效提取带来了极大的干扰。因此,如何从图像或视频中提取有效的视觉信息是属性识别的首要难点。作为一种中层语义描述,属性间通常存在着复杂的视觉和语义关系。这种关系作为视觉信息的补充也为属性识别提供了重要的判断依据。因此,如何利用属性间的关系实现有效的属性关系推理也是属性识别的关键。针对上述属性识别任务的特点,本文从特征表达和属性关系建模这两方面出发提出了一系列属性识别的方法,并将方法应用到行人属性识别和群体属性识别任务。所开展的研究工作可以归纳如下:

(1) 基于视觉-语义图推理的行人属性识别。本工作将属性识别这一多标签分类问题建模成了序列化的属性预测问题,并提出了一种基于视觉-语义图推理的框架来解决这一问题。本工作提出分别使用空间图来描述不同图像局部区域间的空间关系、使用语义图描述不同属性之间潜在的语义关系,并提出使用图卷积网络分别在空间图和语义图上实现推理。为了实现视觉-语义关系的协同建模,本工作提出了一种端到端的网络框架将空间图和语义图的表达互相嵌入到彼此的节点中以实现对彼此的引导学习。同传统的利用递归网络描述属性潜在高阶关系的序列化预测模型不同,本工作使用图卷积网络描述属性的成对关系进而可以实现更高效的推理过程。实验验证了本工作提出的视觉-语义图推理框架的有效性。

(2) 基于协同视觉-语义推理及知识蒸馏的行人属性识别。本工作主要围绕着如何实现更高效的视觉-语义关系推理模块和如何有效地利用人体的结构知识提升行人属性识别的效果而展开。同上一个工作相比,本工作提出了一种更高效的基于图模型的全局推理模块来建模行人属性间潜在的视觉-语义关系。为了利用属性间潜在的约束关系,本工作首先按照属性的语义特性或其描述身体区域的不同来将属性分组。随后,本工作将属性组在图上建模,并用图中的每一个节点代表某一组属性。为了弥合视觉特征和语义属性间存在的鸿沟,本工作提出通过映射函数将对应不同属性的视觉特征映射到图中不同的节点上。通过聚合多个局部区域的视觉特征作为语义节点的表达,不同的属性节点可以自适应地与相应的区域建立联系。在推理之后,可以使用不同的分类器对相应节点的属性进行分类。为了有效利用人体结构知识,本工作在推理模块的基础上添加了一个额外的约束项。该约束项通过蒸馏行人解析知识的方式来引导视觉-语义关系的推理过程,提升网络的表达能力。实验表明了本工作提出的识别模型的有效性。

(3) 基于空-时注意力机制的序列化群体属性识别。传统的群体属性识别方法通常利用不同的网络分支分别训练群体视频的空间特征或时序特征,这使得群体视频的空-时结构无法得到有效描述。此外,传统方法将基于多标签分类的群体属性识别问题建模成多个二分类任务的组合问题,进而忽略了对属性间关系的描述。考虑到现有方法的不足,本工作提出了一种基于空-时注意力机制的序列化群体属性识别模型。为了有效描述群体场景的空-时结构,本文提出使用卷积-长短时记忆网络实现群体场景的特征表达。为了描述属性间的语义关系及属性和空-时特征的关系,本工作提出了一种基于双向注意力机制的序列化预测模型实现对群体属性的有序预测。实验结果表明本工作提出的方法明显优于传统的群体属性识别方法。

语种中文
页码100
源URL[http://ir.ia.ac.cn/handle/173211/28372]  
专题毕业生_博士学位论文
自动化研究所_个人空间
推荐引用方式
GB/T 7714
李乔哲. 基于多标签分类的属性识别问题研究[D]. 北京. 中国科学院自动化研究所. 2019.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。