基于多模态特征表达与融合的RGB-D物体识别
文献类型:学位论文
作者 | 程衍华![]() |
答辩日期 | 2017-05-25 |
授予单位 | 中国科学院研究生院 |
授予地点 | 北京 |
导师 | 黄凯奇 |
关键词 | Rgb-d 物体识别 特征表达 度量学习 多模态融合 |
英文摘要 |
物体识别是计算机视觉领域最基本也是最核心的任务之一,包括图片级的
物体识别和更加精细的像素级物体识别(即场景语义分割)。近年来,随着深度
传感技术的发展,如微软的Kinect,我们能够同步地获取到高分辨率的RGB图
像和高质量的depth图像(即RGB-D数据) 来描述同一个物体的多模态信息。如
何利用RGB图像提供的丰富的颜色、纹理信息,以及depth图像提供的纯粹的
形状、几何信息,来进一步提升物体识别的准确率,并解决传统的基于RGB单
模态的物体识别算法对视角、尺度、姿态以及光线变化的不鲁棒性,成为学术
界和工业界共同的研究热点问题。本论文从RGB-D物体识别的四个关键环节出
发,包括特征表达、度量学习、分类器学习以及RGB-D多模态融合,并充分考
虑物体识别中大规模人工标记训练样本标签的成本代价,进行了如下研究:
(1) 研究了大规模无标注样本条件下RGB-D物体的无监督特征表达学习。
考虑到手工设计RGB及depth特征往往复杂度高、表征能力有限,而现在的深
度学习特征依赖于大规模的人工标记样本来进行监督训练,需要大量的人力、
物力及时间成本,本文探索如何有效地从大规模的廉价的无标记RGB-D样本
中自动挖掘物体判别性的表观和形状特征。论文中我们将卷积和Fisher核编
码相结合(CFK特征),以及将卷积、空间金字塔匹配和递归神经网络相结合
(CNN-SPM-RNN特征),构造了两种无监督的层级特征表达学习器来有效地表
征RGB-D物体各个模态的特性。
(2) 研究了少量标注样本结合大规模无标注样本条件下RGB-D物体的特征
及分类器联合协同学习。尽管无监督特征学习算法不依赖于样本的标签,但是
在涉及到具体的物体识别任务时,依然需要人工标记大规模样本的类别标签来
训练分类模型,如SVM分类器。为了进一步降低RGB-D物体识别整个任务对
大规模人工标记样本的依赖性,我们探索如何利用少量的标注样本和大规模的
无标注样本来获得高精度的RGB-D物体识别性能。受益于RGB和depth模态的
互补性,我们提出了一种基于协同学习的半监督特征及分类器联合学习框架,
只利用5%的标记样本便获得了和当时最好的全监督算法相比拟的物体识别性
能。
(3) 研究了大规模标注样本条件下RGB-D物体尺度及视角不变性的多模态融合学习。有效地融合RGB和depth模态的互补性能进一步提升RGB-D物体识
别的准确度和鲁棒性。现在的融合策略一般采用简单的特征拼接或者分类器
分数加和,这种融合策略很容易受到物体尺度、视角变化的干扰,而且无法适
应RGB和depth信息在识别不同物体时贡献的差异性。为了解决这些问题,我
们首先提出了一种密集匹配策略将物体映射到同一个尺度及视角空间,并在该
空间定义了一种多模态融合学习策略来动态的权衡RGB-D物体中各个模态的重
要性,实验表明相比当时主流的方法,我们的方法在RGB-D物体识别标准库上
获得了更好的分类精度。
(4) 研究了大规模标注样本条件下RGB-D场景语义分割。相比上述图片级
的RGB-D物体识别任务,像素级的RGB-D物体识别任务,即场景语义分割难
度更大,它需要识别图像中每个像素点的类别标签,包括分类和定位两个任
务。基于现在的全卷积神经网络模型,我们提出了一种局部位置敏感的反卷
积神经网络用于提升物体的边沿分割效果,并提出了一种开关融合策略来学
习RGB和depth两种模态在描述不同场景下各种物体时权重的可变性,用于进
一步提升分类的精度。实验表明相比当时主流的方法,我们的方法在RGB-D场
景语义分割标准库上获得了更好的分割结果。 |
源URL | [http://ir.ia.ac.cn/handle/173211/14668] ![]() |
专题 | 毕业生_博士学位论文 |
作者单位 | 中国科学院自动化研究所 |
推荐引用方式 GB/T 7714 | 程衍华. 基于多模态特征表达与融合的RGB-D物体识别[D]. 北京. 中国科学院研究生院. 2017. |
入库方式: OAI收割
来源:自动化研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。