人体姿态估计的表示学习研究
文献类型:学位论文
作者 | 吴文竹![]() |
答辩日期 | 2022-05-20 |
文献子类 | 硕士 |
授予单位 | 中国科学院自动化研究所 |
授予地点 | 中国科学院自动化研究所 |
导师 | 刘静 |
关键词 | 人体姿态估计 关键点上下文 对比学习 层级损失 |
学位专业 | 模式识别与智能系统 |
英文摘要 | 随着网络技术的快速发展与普及,图像和视频等多媒体数据呈现出爆炸式增长的态势,尤其是伴随着各种社交娱乐软件的发展,与人相关的数据内容越来越多,记录人的图像和视频数量呈现急剧增加。如何利用好这些人的数据并从海量的媒体数据中获取更多有价值的结构化信息,对于分析人的活动、理解人的行为具有重要意义,相关研究也受到了学术界与工业界的广泛关注。 人体姿态估计旨在针对包含人的图像或视频数据,预测出一系列人体关键点定位坐标。作为计算机视觉的经典问题之一,它对于描述人体结构信息、预测人体行为具有重要意义。近年来,深度学习技术的发展助推人体姿态估计算法产生极大变革,卷积神经网络的引入使得关键点预测的准确度得到显著提升。然而,人体姿态估计依旧面临许多问题与挑战,如遮挡、变形、服饰或光线改变等造成的预测困难,相关解决方案还有很大提升空间。本文围绕基于深度学习的人体姿态估计任务,从增强特征表示的角度出发,对当前存在的问题进行剖析,设计了更加准确、高效、鲁棒的人体姿态估计算法。具体来说,将从自底向上和自顶向下两个角度来实现提升特征表示的判别力,一方面提出基于关键点上下文聚合的人体姿态估计方法,从底层特征出发来改善用于人体关键点预测的特征图表示;另一方面提出基于对比学习的人体姿态估计方法,通过目标约束来指导网络学习,实现适于人体关键点预测的更具判别力特征表达。 论文的主要工作和创新点归纳如下: 基于关键点上下文聚合的人体姿态估计。针对图像中存在的噪声与干扰问题,本文提出了一种基于注意力机制的关键点上下文聚合人体姿态估计方法。由于特征图上每个像素点均与所有人体关键点相互关联,而这些关联性又表现出不同的强弱程度,因此通过建模特征图表示和人体关键点表示之间的关联关系,可使特征图每个像素点获取到与之关联性更强的关键点上下文信息,从而实现特征图判别力的增强,最终实现更加准确的人体姿态估计。实验表明,该方法能够有效增强特征图的表达能力,且在公开数据集上的多个指标上取得了同期最好效果。 基于层级对比学习的人体姿态估计。针对于服饰变换、姿态扭曲造成的人体关键点区分度不够、定位不准的问题,提出了一种基于对比学习的人体姿态估计方法。为了更好地区分不同部位的人体关键点,需要通过模型学习针对相同类型的关键点对其进行类内一致性增强,而不同类型的关键点需要增大其类间可分性。因此,本文提出了一种基于层级对比学习的算法,充分考虑人体关键点的结构化信息与多尺度特性,帮助网络学习到更具区分度且判别力更强的关键点表示,有效提升人体姿态估计准确度。具体来说,针对人体关键点数目和类型相对固定的特点,提出了结合人体结构信息的正负样本采样方式,主要包含相邻关键点、区域关键点和对称关键点三种负样本采样方式;针对于不同人物目标和不同关键点之间的尺度变化问题,提出了层级对比学习损失设计方案,在构建层级样本空间的基础上进行密集对比损失的计算。实验表明,该方法能有效提升人体姿态估计任务的定位准确度,且在公开数据集上的多个指标上取得了同期最好效果。 |
语种 | 中文 |
页码 | 84 |
源URL | [http://ir.ia.ac.cn/handle/173211/48558] ![]() |
专题 | 自动化研究所_模式识别国家重点实验室_图像与视频分析团队 |
推荐引用方式 GB/T 7714 | 吴文竹. 人体姿态估计的表示学习研究[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2022. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。