中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
基于多尺度特征融合的图像语义分割方法研究

文献类型:学位论文

作者朱袁兵
答辩日期2024-05-16
文献子类硕士
关键词图像语义分割 实时语义分割 开放词汇语义分割 视觉语言模型
英文摘要

人类能够很容易地感知和理解图像场景。构建具有人类级别能力的视觉感知和理解智能体一直是计算机视觉的研究者们的目标。近年来,随着现代机器学习,特别是深度学习的发展,计算机视觉得到了显著的进步。然而,在当前计算机视觉研究相关的很多下游任务上,计算机能力仍然显著落后于人类水平。

图像语义分割,作为图像理解的关键步骤之一,是很多计算机视觉系统的基础算法。图像语义分割的目的是将图像按照语义类别分割为不同区域,使其拥有现实意义,更容易分析。区分图像中每个像素的类别是困难的,因为图像中存在大量不同的场景,特别甚至是稀有种类的物体。同时,计算机还要处理不同物体的尺寸,纹理,边缘细节等差异。因此,本文探索构建有效的图像语义分割系统的核心问题,并为之设计不同的算法来增强其性能。

本文集中于处理图像语义分割中的视觉特征的空间尺度问题和开放词汇语义分割问题。由于图像语义分割的任务特性,使其在高度依赖于小尺度的特征来捕捉上下文语义和长距离依赖的同时,也亟需大尺度的特征来保持空间结构和分割细节。另外,传统图像分割往往只能分割特定的物体类别,而对未训练过的新类别缺乏泛化能力,开放词汇语义分割任务的目的就是让算法不局限于训练数据与训练类别。本文主要分为以下两个部分。

    1.通过不确定性估计的方式分析实时语义分割网络中对于不同尺度的特征在不同层级的监督信号下的表现和问题。在这部分中,本文通过不确定性估计分析语义分割和边缘检测辅助任务的不确定性,揭示了实时语义分割任务中常见的空间特征和上下文特征融合不充分的问题,进而提出边缘注意力融合模块来解决该问题。同时,为了降低实时语义分割模型的不确定性进而提升其性能,本文还通过预测方差来估计不确定性,并利用估计结果对模型的训练进行正则化。
    2.多分辨率的开放词汇语义分割框架。这一部分中,本文发现当前的开放词汇语义分割的算法受到视觉语言模型训练图片输入尺寸的限制,无法充分利用视觉语言模型特征的优势。因此,本文提出了一个多尺度多分辨率训练框架来利用多尺度视觉语言模型特征。其中,在特征提取过程中,多尺度视觉语言模型特征被用于增强掩码预测;在掩码分类过程中,本文设计了多尺度语义聚合模块来充分利用由视觉语言模型的多尺度输入产生的区域性语义,通过聚合局部和全局的多模态语义来提升性能。 

这两项工作关注的重点是语义分割中对于不同尺度特征的有效利用。第一项研究的主要关注点是,使用辅助任务来有效增强实时语义分割算法中不同尺度上下文特征的融合。第二项研究的主要关注点是,解决视觉语言模型在使用时的输入分辨率限制,通过多分辨率限制来利用多尺度多分辨率的多模态特征,进而提升掩码预测和分类的性能。

本文最后从更加广泛和通用的角度,总结和讨论了图像语义分割的未来工作和方向。

学科主题模式识别 ; 计算机感知 ; 计算机神经网络
语种中文
页码88
源URL[http://ir.ia.ac.cn/handle/173211/57642]  
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
朱袁兵. 基于多尺度特征融合的图像语义分割方法研究[D]. 2024.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。