基于特征学习和融合的 RGB-D 场景理解
文献类型:学位论文
作者 | 李亚蓓![]() |
答辩日期 | 2020-05-31 |
文献子类 | 博士 |
授予单位 | 中国科学院自动化研究所 |
授予地点 | 中国科学院自动化研究所智能化大厦1610 |
导师 | 谭铁牛 |
关键词 | RGB-D 3D点云 场景分类 场景语义分割 |
学位专业 | 模式识别与智能系统 |
英文摘要 | 计算机视觉要解决的主要问题为图像中有什么物体且它的位置在哪儿,其中的关键词“什么”和“哪儿”突出了计算机视觉的一个关键任务在于理解场景中的内容及其位置。场景理解包括场景分类、物体检测、语义分割等不同粒度的识别问题。视觉场景的多样性和识别任务的复杂性使得场景理解成为富有挑战性的问题。传统的计算机视觉主要利用二维RGB图像进行场景理解研究,在理论和应用层面都取得了很大进展。但由于从场景三维空间到二维图像的映射过程存在信息缺失,基于RGB的场景理解存在一些难以解决的问题,如对光线颜色敏感、对尺度变化不够鲁棒、对遮挡物体不易处理等。近来随着消费级别深度传感器的出现,人们能够获得场景的深度数据并使用RGB-D数据进行场景理解。深度图像可以提供对光线鲁棒的几何形状信息,与RGB图像提供的颜色纹理信息相互补充。多视角RGB-D图像也可以进一步重建3D场景,解决尺度变化、遮挡等问题。本论文基于RGB-D图像和3D点云两种输入,重点研究场景理解中的室内场景分类和场景语义分割问题,主要包括: (1)研究了基于RGB-D图像全局特征的室内场景分类问题。针对室内场景全局特征的类内差异大,类间差异小的问题,我们提出了一个多任务学习网络同时优化基于度量学习的结构化损失函数和分类交叉熵损失函数,提高单模态场景表达的判别性。在特征融合时,为了获得具判别性的多模态场景表达,我们提出判别性特征融合网络,学习模态特征表达之间的独有关系和关联关系。实验表明,所提出的框架在RGB-D室内场景分类上可以获得优异的效果。 (2)研究了基于RGB-D图像局部表达的室内场景分类问题。场景中的局部信息,如物体和物体间的关系等对场景理解有重要作用。为了更好地描述场景中物体空间位置的高度可变性,以及更好地去除噪声局部信息,本文提出了一个基于注意力机制的模态内池化模型,选择和聚合对场景分类有帮助的局部区域。为了更好地融合多模态局部信息,我们扩展了基于注意力机制的模态间池化模型,自适应调节融合时每个模态局部信息的贡献。实验表明所提出的框架在RGB-D场景分类问题上可以得到优异性能,并可以通过可视化进一步解释模型的决策依据。 (3)研究了基于RGB-D图像的室内场景语义分割问题。本文进一步讨论精细化像素级别的场景理解。深度图像在场景语义分割任务中能提供重要的边缘形状信息。但在高层融合RGB和深度特征时,RGB和深度模态中的低层信息将大量丢失。针对该问题我们提出了一个多层次多模态融合网络。为了更好地结合分布差异较大的RGB模态和深度模态低层特征,我们设计了基于语义指导的融合模块。它利用高层特征预测的分割结果与真实标注间的残差信息进行监督训练。通过自顶向下地级联不同层级的融合模块,可以得到更精细的全分辨率分割结果。实验表明所提出的基于语义指导的融合方法在RGB-D场景分割上取得了优异的结果。 (4)研究了基于3D点云的室内场景语义分割问题。相比RGB-D图像,使用3D点云进行场景理解能有效克服尺度变化、视角变化以及遮挡等问题。在学习场景3D点云特征表达时,3D点云的数据量较大是一个突出问题,现有方法难以获得全局场景的上下文信息。针对此问题,本文提出了基于知识蒸馏和特征融合的3D场景语义分割方法。针对不同粒度的信息表达,我们设计了不同分辨率输入的双流点云网络,其中稠密局部流包含细节信息,稀疏全局流包含上下文语义信息。同时,我们提出了蒸馏模块和融合模块在双流中互相传递细节和全局上下文信息。实验验证了所提出框架在3D点云场景语义分割任务上的有效性。 |
语种 | 中文 |
页码 | 142 |
源URL | [http://ir.ia.ac.cn/handle/173211/39732] ![]() |
专题 | 自动化研究所_智能感知与计算研究中心 |
推荐引用方式 GB/T 7714 | 李亚蓓. 基于特征学习和融合的 RGB-D 场景理解[D]. 中国科学院自动化研究所智能化大厦1610. 中国科学院自动化研究所. 2020. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。