基于跨膜态分析的图像指代分割算法研究
文献类型:学位论文
作者 | 闫熠辰![]() |
答辩日期 | 2024-05 |
文献子类 | 博士 |
关键词 | 跨模态分析,图像指代分割,视觉语言模型 |
英文摘要 | 随着多模态人工智能的发展,基于跨模态分析的图像指代分割任务在各个领域得到了广泛应用。图像指代分割是一项重要的视觉任务,旨在准确识别和分割图像中被指代的物体或区域。这个任务可以广泛应用于交互式图像编辑、视觉导航和具身智能等领域。 尽管目前已经有基于多模态融合和对齐的图像指代分割算法,但在当前研究中,存在两个关键问题需要解决。首先,现有的多模态特征融合方法往往只专注于单一模态的引导,无法有效融合视觉和语言信息。为此,本文提出了一种全新的视觉和语言双向引导的多模态融合方法,以提高指代分割的准确性和效率。其次,以往的多模态对齐方法通常采用与传统图像分割相同的分割方式,缺乏在分割阶段显式对齐视觉和语言特征的探索。针对这一问题,本文提出了一种在分割阶段可以显式对齐视觉和语言信息的新方法,以进一步提升图像指代分割的性能和鲁棒性。通过上述方法的实践与深入探究,本论文旨在推进图像指代分割技术向更高层次发展,进而为多模态人工智能提供更为高效精确的视觉理解手段。论文的主要工作和创新点归纳如下: |
学科主题 | 计算机科学技术 |
语种 | 中文 |
页码 | 58 |
源URL | [http://ir.ia.ac.cn/handle/173211/57197] ![]() |
专题 | 毕业生_硕士学位论文 |
推荐引用方式 GB/T 7714 | 闫熠辰. 基于跨膜态分析的图像指代分割算法研究[D]. 2024. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。