中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
基于域迁移的立体匹配方法研究

文献类型:学位论文

作者张承灏
答辩日期2023-05-25
文献子类博士
关键词立体匹配 域迁移 多任务学习 多模态学习 连续学习
英文摘要

立体匹配旨在找到左右视角图像的匹配像素点并估计它们之间的视差。作为基于图像的被动视觉技术,立体匹配因其设定简单、准确率较高以及可接受的成本,在估计场景深度时通常被视为一种优先选择。该技术在三维重建、自动驾驶、增强现实和视觉导航等众多领域具有重要的应用和研究价值。近年来,基于深度神经网络的立体匹配方法取得了显著的研究进展。然而,这些方法在应用至特定场景时仍面临诸多不足与挑战:在任务层面,由于左右视图的匹配缺失或混淆,现有深度立体匹配方法难以处理遮挡、无纹理、弱纹理区域;在数据层面,由于合成图像和真实图像以及真实异构场景之间存在显著领域差异,模型无法在不同数据域之间进行自适应迁移。为缓解上述问题,本文基于域迁移学习思想,探究如何从相关领域中学习知识并迁移到特定场景的立体匹配算法中,先后提出基于多任务协同学习、多模态视听学习、无监督域自适应和连续架构增长等多种跨域知识迁移方式。其中,前三种方式涉及两个域之间的点对点知识迁移,而第四种方式将两个域的点对点迁移扩展至多个域之间的多点连续迁移。本文的主要贡献归纳如下:

1. 提出一种基于单目上下文约束的多任务协同立体匹配方法。为缓解双目视觉因遮挡造成的匹配缺失问题,提出将单目深度估计作为上下文约束引入至立体匹配任务中,从而进行多任务协同学习,并通过单目特征到双目特征的知识迁移来提升模型对遮挡情况的鲁棒性。进一步地,提出多任务损失函数自适应权重分配策略,平衡了单目视觉和双目视觉的损失函数,提升了模型性能。在多个公开的立体匹配数据集上的实验结果表明,所提方法在合成场景和真实场景的遮挡情况下均具有优越的立体匹配性能。

2. 提出一种基于跨模态特征融合的多模态视听立体匹配方法。为缓解双目视觉在无纹理和弱纹理区域存在的匹配混淆问题,提出利用视觉与音频模态在深度估计上的互补性,引入回声信号来辅助双目图像进行多模态深度估计。技术上,构建跨模态代价体细化模块,将回声特征作为约束信息传递到视觉特征上,以增强双目视觉对图像无纹理区域的特征判别能力。进一步地,构建相对深度不确定性估计模块,将视觉与音频模态所预测的深度图进行加权融合。在本文所构建的两个双目-回声深度估计数据集上的实验结果表明,所提方法在图像上的无纹理和弱纹理区域均表现出优越的深度估计性能。

3. 提出一种基于逐点域对齐的无监督域自适应立体匹配方法。合成数据和真实数据在颜色、纹理和视差分布等方面存在显著的领域偏差。为了减少合成数据域到真实数据域的领域鸿沟,提出域对齐模块来对齐两个数据域的匹配代价体,通过引入逐点线性变换,减少了域对齐模块的参数同时保持足够的对齐能力。进一步地,提出尺度一致性损失来增强基于视角重构的光度损失的稳定性。域对齐学习通过在合成域上的有监督学习、在真实域上的无监督学习和在两个域上的对抗学习来进行。在四个真实场景的立体匹配数据集上的实验结果表明,所提方法超越了现有的无监督、半监督和域自适应方法。

4. 提出一种基于可复用架构增长的连续立体匹配方法。受到模型连续学习研究的启发,提出利用网络结构增长赋予立体匹配模型在连续异构场景下的持续学习能力。技术上,为了连续地适应新场景同时不遗忘之前学过的场景,首先冻结在之前场景上学到的网络权重,接着对当前场景采用网络结构搜索获得适用于该场景的网络架构,最后利用新旧场景的网络架构进行整体模型的可复用增长,以平衡模型的参数量和性能。在实际部署时,进一步提出场景路由器来自适应地根据场景类型选择合适的架构路径进行模型推理。在三个驾驶场景的立体匹配数据集上的不同天气和道路环境的实验结果表明,所提方法在连续异构场景上具有优越的连续立体匹配能力。

语种中文
页码112
源URL[http://ir.ia.ac.cn/handle/173211/52258]  
专题自动化研究所_模式识别国家重点实验室_遥感图像处理团队
推荐引用方式
GB/T 7714
张承灏. 基于域迁移的立体匹配方法研究[D]. 2023.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。