从单幅图像学习深度
文献类型:学位论文
作者 | 何雷1,2![]() |
答辩日期 | 2018-05-29 |
授予单位 | 中国科学院大学 |
授予地点 | 北京 |
导师 | 胡占义 |
关键词 | 单幅图像深度学习 非参数深度估计方法 深度卷积神经网络 纺锤形网络 |
英文摘要 |
深度信息是三维场景理解的重要要素。从单幅图像学习像素级深度信息,由于不需要进行图像之间的对应点匹配等困难的操作,所以较立体视觉等基于多幅图像提取深度的方法,具有特有的优势和应用前景。然而,根据图像成像模型可知,理论上从单幅二维图像无法唯一恢复成像过程中丢失的深度信息,所以,从单幅图像恢复深度信息本质上是一个病态问题,需要借助场景先验、全局信息和局部信息进行约束求解。从机器学习推断单幅图像深度的观点看,模型学习的过程,旨在建立一种“图像表达”与“深度信息”的映射关系。所以,如何从大量图像中在统计意义下学习到合适的图像表达和映射关系,是从单幅图像学习深度的核心问题。另外,除了深度推断的质量外,如何加快推断的速度,也是从单幅图像学习深度的一个追求目标。论文围绕从单幅图像学习深度的一些关键问题进行了系统研究,主要工作有以下几方面:
1. 提出了一种快速的从单幅图像学习深度信息的非参数方法
非参数深度估计的一般步骤为:先提取数据库和输入图像的全局特征,然后通过全局特征在数据库中搜索与输入图像最相似的候选图像集,据此建立候选图像和输入图像之间的稠密映射关系,并使用这种映射关系对候选图像进行深度迁移、融合和优化。这种方法一个重要的问题是计算效率低。针对这个问题,本文提出了在细尺度上的“流”通过在粗尺度上的“流”插值的计算策略,并给出了一种稀疏SIFT flow的快速方法,取得了2-3倍的加速比。同时,通过分析像素的SIFT flow描述子,将具有可区分性的统计因子加权到能量函数的数据项中,提高了深度估计的可靠性。
2. 单幅图像估计深度的固有歧义性分析和变焦数据库生成
我们从理论上分析了从单幅图像学习深度时由于图像未知焦距导致的歧义性,并采集了真实图像数据对这种歧义性进行了实验验证。为了消除这种由焦距引起的歧义性,可靠地学习单幅图像的深度,在模型的训练和测试阶段,有必要同时考虑焦距等摄像机的内参数信息。考虑到当前从单幅图像学习深度的数据集都是固定焦距的,本文提出了一种从固定焦距数据集生成多焦距数据集的方法,并生成了两个“变焦距数据库”。针对新生成的图像中的孔洞问题,本文还提出一种通过融合邻域信息的快速孔洞填充方法,使得生成的新焦距图像更接近真实图像。
3. 提出了一种充分融合网络中层信息的单幅图像深度估计方法
在充分分析当前深度卷积神经网络结构在像素深度估计方面的利与弊的基础上,提出了一种充分融合网络中层信息用于弥补空间分辨率损失的方法,提高了深度推断的准确性。在固定焦距数据集上,本文所提出的方法在各个误差度量上都超过了其它具有相同预训练结构的方法,获得了更好细粒度的单幅图像深度图。在此基础上,为了消除由焦距引起的单幅图像深度估计的歧义性,我们将焦距信息以全连接层的形式嵌入到了当前模型中。在生成的多焦距数据集上的大量测试表明,与没有嵌入焦距信息的模型相比,嵌入焦距信息的模型可以显著提高算法在各种误差度量上的精度。
4. 提出了一种纺锤形的网络结构用于推断像素级的深度
从网络结构上来说,目前学习像素级标签的深度神经网络,一般采取Encoder-Decoder 的网络结构,它们都是使用迁移学习的方法,从视觉高级任务的网络转化而来。为了直接学习单幅图像像素级的深度图,本文设计了一种纺锤形网络结构:先对输入图像进行升维处理,然后在高维空间再提取特征进行深度估计。为了克服计算机显存的限制,本文采用单幅图像的超分辨技术进行了升维操作。为了获取较广范围的全局信息,本文将膨胀卷积思想推广到了膨胀卷积核。通过和现有方法对比,发现本文所提出的方法在输入低分辨率图像的情况下,仍可以取得比较可信的深度估计。本文的纺锤形网络和实现策略,为单幅图像推断深度提供了一条新的途径,对其它像素级推断问题也具有参考价值。
|
语种 | 中文 |
源URL | [http://ir.ia.ac.cn/handle/173211/21071] ![]() |
专题 | 毕业生_博士学位论文 |
作者单位 | 1.中国科学院自动化研究所 2.中国科学院大学 |
推荐引用方式 GB/T 7714 | 何雷. 从单幅图像学习深度[D]. 北京. 中国科学院大学. 2018. |
入库方式: OAI收割
来源:自动化研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。