中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
基于结构化建模的人体解析研究

文献类型:学位论文

作者张小梅
答辩日期2021
文献子类博士
授予单位中国科学院自动化研究所
授予地点中国科学院自动化研究所
导师唐明 ; 王金桥
关键词人体解析 结构化建模 多尺度上下文 全卷积神经网络
学位专业模式识别与智能系统
英文摘要

随着互联网和多媒体技术的高速发展以及信息基础设施的不断完善,图像数据呈现出爆炸式的增长。如何利用图像数据为人类的生产生活服务成为一项日益重要的研究课题。而对图像数据中的人体进行解析,是数据智能应用中的一个基础而又必不可少的环节,并在诸如虚拟试衣、姿态识别、行人重识别和动作识别等领域具有广泛的应用价值和发展前景。
人体解析通过对图像中的人体进行像素级别的分类,可以实现对人体语义最细粒度的表达。基于全卷积神经网络的人体解析算法对于人体解析任务的研究具有重要意义。该类算法通过预训练图像分类网络来获取图像的高层语义信息,采用双线性插值等上采样方法来恢复目标的空间细节信息,从而获得人体部件像素的分类结果。尽管取得了很大的成功,但此类算法仍然面临着一些挑战。一方面,由于杂乱场景和相似背景的干扰,使得算法很难提取出完整准确的前景,造成类别判别不准确。为了解决这个问题,本文根据人体的固有层次结构构建深度模型,使其尽量关注人体前景,抑制杂乱场景和相似背景的干扰。另一方面,由于人体部件的尺度、遮挡、形变、姿态等状态的多样性,人体部件的表观特征变化较大,不同部件之间的识别容易混淆。解决这个问题的关键是如何提高特征表达的鲁棒性。通常,会借助于某个像素或区域所在目标的上下文信息来判断该像素或区域的语义。因此,准确捕获和利用这些上下文信息对于像素或区域的识别至关重要。本文通过设计合理的全卷积网络结构以及策略进行结构化建模,使得特征可以获得丰富的上下文,从而提升人体解析的精度。
本文的主要成果和贡献归纳如下:
1. 针对自然场景中的杂乱场景,以及主流解析方法使用单个分类器造成解析结果精度低的问题,提出了一种基于树状层次结构网络的深度模型算法。该结构网络利用二叉树的思想,逐步分割人体的各个部件,其中每一步都使用针对特定部件的特征融合模块生成准确的解析结果,并将之传递到下一层。这种结构网络使得人体解析过程更加关注感兴趣的区域并且忽略不相关的信息,从而减少了背景的干扰。为了减少信息传递过程中的累积误差,算法还通过融合原始特征来修正错误信息。实验结果表明,该方法可有效应对杂乱场景下的人体解析任务,改善单个分类器网络的解析精度,在多个数据集上获得了同期较好的结果。
2. 针对相似或者复杂背景会影响前景提取的问题,提出了一种混合语法网络,来探索人体固有的层次结构以及不同人体部件之间的关系。在每个语法规则中,借助容易区分的部件来提高难区分部件的提取准确率,从而提升整个前景的精度。同时,使用规则模块来传递语法规则信息。为了有效训练规则模块,引入语法损失来监督其训练,从而提升其特征判别能力。实验结果表明,该方法能有效应对复杂背景中的人体解析任务,并且在多个数据集上的准确率高于同期其他方法。
3. 针对不同大小和形状的人体部件,提出了一种部件上下文网络,自适应地产生每个部件的上下文。该网络通过特征提取器获得原始特征,然后使用图卷积探索学习人体各个部件之间的高阶关联语义,从而获得部件的全局上下文。同时,使不同人体部件的特征尽量远离,并保持本部件的特征尽量紧凑,从而获得部件的局部上下文。最后,融合原始特征、全局和局部上下文获得部件自适应的上下文。实验结果表明,该方法能有效缓解大目标错分和小目标漏分的问题,在多个数据集上都取得同期最好的结果。
4. 针对高低层特征融合过程中的语义鸿沟问题,提出了一种融合高低层特征的网络,有效地缩小了高低层特征间的语义鸿沟。该网络为低层特征引入更多的语义信息,为高层特征引入更多的空间细节信息,从而增强了高低层特征融合的有效性。该网络还通过融合不同层级的特征生成多尺度特征,扩大了感受野。实验结果表明,该方法有效地缩小了不同层级特征间的语义鸿沟,获得了多尺度上下文,并在多个通用人体解析数据库上取得了远超其它人体解析方法的精度,实现了同期单模型的最好性能。

语种中文
页码138
源URL[http://ir.ia.ac.cn/handle/173211/44890]  
专题自动化研究所_模式识别国家重点实验室_图像与视频分析团队
推荐引用方式
GB/T 7714
张小梅. 基于结构化建模的人体解析研究[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2021.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。