中国科学院机构知识库网格系统: 跨模态数据引导的视觉场景分割

中国科学院机构知识库网格

Chinese Academy of Sciences Institutional Repositories Grid

跨模态数据引导的视觉场景分割

文献类型：学位论文


作者	甘睿彤
答辩日期	2023-05-20
文献子类	硕士
关键词	视觉场景分割跨模态数据引导跨模态特征融合语义分割
英文摘要	视觉场景分割任务作为计算机视觉领域中的一个感知任务分支，有着非常重要的研究意义。视觉场景分割通常需要将图像中包含的物体或语义进行像素级别的解析与判定归类，进而使机器能够对图像中目标的类别、形状、边界、位置等信息进行掌握，在如自动驾驶算法、遥感图像分析等相关领域都有着非常重要的研究意义与应用价值。注意到，真实场景中常常存在除视觉图像信息之外的多模态信息可供利用，如声音、距离、语言文本、人机交互数据等等。利用这些跨模态数据信息，研究者可以综合多种模态的信息进行交互印证，训练模型算法使其能够接受视觉模态之外的跨模态信息输入，综合理解模态信息间的信息关联，来达到单一模态信息无法传达的复杂场景的理解能力。为此，近年来，研究者们对于视觉场景分割任务中的跨模态数据应用进行了探索与尝试，在模型训练和测试时提供图像信息之外的模态信息作为额外的信息输入分支来给予模型数据支持。与传统单模态的场景分割任务相比，跨模态数据引导的视觉场景分割的研究侧重点则主要聚焦在每个模态信息的不同表达方式，以及跨模态信息间的数据沟通及特征融合。本文的研究工作探索了两种不同的跨模态信息在视觉场景分割任务中的具体应用，探索如何获得更完整的跨模态数据信息表达，模态间信息的融合方式，以及尝试解决跨模态模型在开放真实场景下的泛化、应用、部署时存在的问题。本文主要创新点包括： 1. 基于跨模态点交互信息的视觉场景分割：以用户提供的点交互坐标信息为人机交互数据，提供目标分割的先验引导，实现高精度的实例目标分割模型。在该任务的基础上，通过对已有方法的局限性分析，提出并构建了一种终身学习的框架，自动收集用户提供的点交互数据，通过发掘交互信息中包含的隐含特征，使模型在摆脱对像素级精细化标签依赖的同时实现迭代进化，为模型在真实开放环境下的部署提出了一种可行的实际方案。 2. 基于跨模态文本描述信息引导的视觉场景分割：以文本描述信息为跨模态数据，引导并完成场景目标分割任务，实现模型对自然语言和场景图像两种模态特征的理解与对齐。通过基于图像特征上下文信息辅助定位优化文本特征的框架方法，以及综合利用数据集中对相同目标与不同目标的复数对文本描述间的互相约束，解决了由低质量跨模态文本信息引导时带来的目标匹配错误这一关键问题，取得了行业中前列的模型性能表现。总的来说，本文针对跨模态数据引导的视觉场景分割，分别探索了两种不同的跨模态数据在视觉分割任务中的影响与实际应用。第一种跨模态信息为用户点交互信息，由用户在图像层级上进行交互介入提供前背景的点击指引，该模态 I 跨模态信息引导的视觉场景分割的数据主要携带由用户判定的目标物体的前背景位置信息指示，以及该物体在图片中的位置感知范围，能够与视觉模态信息较为直观地融合特征表达；第二种跨模态信息为文本描述信息，与前一种模态信息相比则更加贴近真实世界中的跨模态信息形式，主要通过对目标物体的位置、外观、行为等细节描述来指引模型在视觉模态上进行定位，与视觉模态信息有着较大的特征表达差异，对模型理解来说更具有挑战性，也更贴近真实场景的应用。实验表明，本文所提出的对上述两种跨模态信息引导的视觉场景分割方法与同期工作相比，均有较为显著的性能提升，在领域内基准数据集上达到领先水平，且方法切实解决了已有工作中存在的不足，并且试图解决了在开放真实场景中部署模型所存在的一定问题，脚踏实地对问题研究的落地进行了尝试，具有较好的学术创新以及实际应用价值。
语种	中文
页码	98
源URL	[http://ir.ia.ac.cn/handle/173211/51694]
专题	毕业生_硕士学位论文
通讯作者	甘睿彤
推荐引用方式 GB/T 7714	甘睿彤. 跨模态数据引导的视觉场景分割[D]. 2023.

入库方式： OAI收割

来源：自动化研究所

浏览0

下载0

收藏0

其他版本

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。