基于语义的跨模态检索研究
文献类型:学位论文
作者 | 程文龙![]() |
答辩日期 | 2022-05-21 |
文献子类 | 硕士 |
授予单位 | 中国科学院自动化研究所 |
授予地点 | 中国科学院自动化研究所 |
导师 | 王亮 |
关键词 | 跨模态检索 视觉问答 语音-图像检索 三模态排序损失 循环一致性损失 |
学位名称 | 工学硕士 |
学位专业 | 模式识别与智能系统 |
英文摘要 | 随着信息技术和硬件设备的发展,互联网上涌现出了大量的多媒体数据,如图像、文本、语音以及视频等。如何从大量多媒体数据中快速搜索有效信息成为了一个亟需解决的问题。为了解决该问题,跨模态检索技术应运而生,并引起了 研究者们的广泛关注。与单模态检索相比,跨模态检索存在模态差异性问题,其 主要挑战在于如何度量不同模态数据之间的内容相似性。随着计算机视觉和自然语言处理技术的发展,跨模态检索也取得了很大的研究进展。但仍然存在一些问题。一是跨模态检索技术的迁移与应用问题,即跨模态检索技术能否成功应用到其他相关领域中。二是先前的跨模态研究主要聚焦于图像和文本,很少关注语音,但在某些场景下使用语音比文本更加方便。三是先前的方法不能很好地抑制 图像和语音之间的模态差异性问题。本文的研究工作主要聚焦于这些问题,贡献 如下: 1. 提出了一种基于检索的方法来处理视觉问答中的指向问题,这是检索模型迁移到视觉问答任务中的一次成功尝试。该方法的原理为在共同特征空间中拉近问句特征与正确答案特征之间的距离,同时推远问句特征与非正确答案特征之间的距离。此外,该方法不仅能解决有候选答案约束的指向问题,也为无候选答案约束的指向问题提供了一种可行的解决思路。该方法在视觉问答的指向任务中获得了较好的性能。 2. 提出了一种基于语义信息和特征重构的检索方法来处理语音-图像检索的问题。首先,使用对应于语音数据的语义信息引入了图像和语音之间的辅助对齐关系,并据此提出了一种三模态排序损失。其次,引入了基于特征重构的循环一致性损失,这可以进一步抑制视觉模态和语音模态之间的模态差异性问题。大量的实验验证了该方法的有效性。该方法在语音-图像检索任务上取得了较好的性能。 |
语种 | 中文 |
页码 | 74 |
源URL | [http://ir.ia.ac.cn/handle/173211/48486] ![]() |
专题 | 自动化研究所_智能感知与计算研究中心 自动化研究所_毕业生 毕业生_硕士学位论文 |
推荐引用方式 GB/T 7714 | 程文龙. 基于语义的跨模态检索研究[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2022. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。