基于文本和图像类别对应的跨模态检索研究
文献类型:学位论文
作者 | 曾志雄![]() |
答辩日期 | 2023-05-21 |
文献子类 | 博士 |
关键词 | 跨模态检索,模态共享与特定信息,模态不平衡数据,模态信息语义交互,一致性与选择性优化 |
英文摘要 | 跨模态检索旨在通过一种模态的查询来检索另一种模态中语义相关的样本,从而满足用户通过网络社交媒体便捷获取多模态数据的需求。跨模态检索需要建立从一种模态数据到另一种模态数据之间的语义关联,相对于传统的单一模态场景是一项更具有研究挑战的任务。大多数跨模态检索研究以文本和图像两种模态作为对象,可以分为基于文本和图像一一对应的跨模态检索和基于文本和图像类别对应的跨模态检索。由于基于文本和图像类别对应的跨模态检索可以充分利用语义类别信息,为文本和图像提供丰富的跨模态对应关系,因而更贴近实际应用场景中文本和图像多对多关联的复杂场景。本论文聚焦基于文本和图像类别对应的跨模态检索开展研究。
本论文的主要贡献和创新点归纳如下: 1.针对以往研究缺少对文本和图像之间局部关联性问题的考虑,为了对模态共享信息和模态特定信息进行有效区分和利用,提出一种基于正交分解的跨模态检索方法。该方法首先通过正交约束明确区分模态共享和模态特定的特征,而后提出结构保留损失以最大化模态共享特征的共性和模态特定特征的差异性,最后设计模态内区分性损失和模态间不变性损失来学习多模态数据之间的语义关联。通过实验验证了所提出方法的有效性。 2.针对以往研究忽略了现实应用中存在模态不平衡训练数据和未知类别检索数据的问题,为了增强跨模态检索应用的鲁棒性,提出跨模态检索的鲁棒性问题并提出一种基于原型自适应的跨模态检索方法。该方法通过将原型学习引入到跨模态检索任务中,利用跨模态共享的语义原型表示每个语义类别,为不同类别提供判别信息以自适应地学习跨模态表示;在此基础上,提出原型传播网络和原型推理网络用于生成模态平衡的训练数据和识别未知类别的检索数据。通过实验验证了所提出方法的有效性,以及在模态不平衡数据和未知类别查询下的鲁棒性。 3.针对以往研究忽略了不同模态信息的语义交互问题,为了对多模态数据的语义关联信息进行有效融合并加以利用,提出一种基于协同聚类的跨模态检索方法。该方法首先采用随机概率转移在具有一致语义的多模态语义图上进行随机游走,使得模态特定的网络能够处理具有一致标签的多种模态信息以改进语义交互;在此基础上,提出对比聚类损失用于促进优化过程中多模态数据间的语义交互,同时引入类内和类间距离裕度以增强训练的灵活性。实验结果表明该方法优于对比方法。 4.以往研究采用简单组合样本-样本关联和样本-类别关联的方式,带来训练目标的不一致结合和样本选择的无偏优化问题,因而对多模态关联信息的利用不足,导致跨模态检索的低效性。为此,提出一种基于嵌入转移的跨模态检索方法。该方法将基于样本-样本关联的成对学习和基于样本-类别关联的成类学习统一在一个新的多模态嵌入转移框架中,并将多模态嵌入向量的相对亲和度作为知识实现成类和成对学习之间的迁移;进而利用迁移的知识设计嵌入转移策略对多模态样本进行选择性优化,并提出软对比损失来学习模态不变和语义区分的向量表示。实验结果表明该方法明显优于传统简单结合成类和成对学习的方法,显著地提高了文本和图像的类内和类间语义区分。 |
语种 | 中文 |
页码 | 120 |
源URL | [http://ir.ia.ac.cn/handle/173211/52038] ![]() |
专题 | 毕业生_博士学位论文 |
推荐引用方式 GB/T 7714 | 曾志雄. 基于文本和图像类别对应的跨模态检索研究[D]. 2023. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。