中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
面向视觉-语言的跨模态预训练与匹配方法研究

文献类型:学位论文

作者chen yuxin
答辩日期2024-05
文献子类博士
关键词视觉语言匹配 图像文本预训练 知识蒸馏 双向匹配评估 令牌合并
英文摘要

随着深度学习技术的不断发展,计算机视觉领域和自然语言处理领域均取得了长足的进步,二者呈现出相互促进、相互融合的发展趋势,面向视觉-语言的跨模态理解领域也得到了更加广泛的研究和关注。作为跨模态理解领域的重要研究方向之一,视觉语言匹配旨在理解视觉和语言之间的关联和差异并准确衡量二者匹配程度,是多种跨模态任务的基础,具有重要的科研价值。同时,视觉语言匹配也在人机交互、短视频搜索、电商推荐等现实场景中扮演着核心角色。近年来,随着多模态数据的爆炸式增长和计算芯片的进步,“图像文本跨模态预训练+微调适配”范式通过从海量图文对数据中学习丰富的跨模态知识,并在下游视觉语言匹配数据集上进行微调,已成为实现强大视觉语言匹配能力的主流方法。

然而,实现准确高效的视觉语言匹配仍存在着一些重要挑战。一方面,性能更强的单流预训练模型常伴有更复杂的模型结构和更高的计算复杂度,难以应用于大规模数据场景。而结构简洁且高效的双流预训练模型对细粒度信息理解与关联能力不足,且难以建模丰富的图文匹配知识,往往性能较低;另一方面,利用图文预训练模型中丰富的图文知识有助于降低视频文本匹配的难度。然而,视频的信息丰富性给准确匹配带来了挑战,视频的时空冗余性也造成了大量的计算负担。因此,本文从“如何实现准确高效的视觉语言匹配”这一问题出发,关注图像文本预训练和视频文本匹配两个关键技术,针对上述挑战,分别从“双流预训练模型的细粒度信息理解与关联”、“单流预训练模型到双流预训练模型的知识蒸馏”、“视频文本的双向匹配评估”、“视频的时空冗余缩减”四个方面展开了方法研究。本文的主要工作和贡献概括如下:

1. 针对双流预训练模型细粒度信息理解与关联能力不足的问题,本文提出了一种基于局部文本错误建模的预训练方法。利用预训练语言模型的丰富语言知识,构造具有局部错误的图像描述并作为高质量负样本。通过要求预训练模型根据图像信息对文本中的错误进行检测和修改,促进其对图像文本细粒度信息的感知与关联。此外,本文还提出一种图文多粒度交互框架,在模型训练过程中插入交互模块以实现文本特征与全局及局部视觉特征的交互,充分发挥所提出预训练任务的效果。在测试过程中移除交互模块以保持模型的计算高效性。实验结果表明,本文方法有效增强了双流模型的图像文本细粒度理解与关联能力,在多个公开图像文本检索数据集上获得了同期最好的效果。

2. 针对双流预训练模型结构简单,难以建模丰富图文匹配知识的问题,本文提出了一种基于对比式局部排序蒸馏的预训练方法,将匹配准确但计算复杂的单流图文预训练模型作为教师模型,对不同图像文本对之间的相似度排序进行标注并作为蒸馏目标,指导双流模型对图文知识进行建模。此外,本文分析发现只有难样本之间的排序信息包含有效知识,且蒸馏损失需要与双流模型本身的训练损失保持协调才能进行有效知识传递。因此,本文专注于学习难样本之间的排序信息并通过对比学习的方式实现知识蒸馏,丰富了双流模型中的图文知识并提高了其匹配能力。本文方法具有较好的泛化性,适用于各种结构和规模的图文预训练模型,对于提升双流预训练模型的图文匹配性能具有重要的意义。

3. 针对视频内容丰富性所导致的视频文本匹配困难问题,本文提出了一种基于跨模态双向重构的视频文本匹配方法,从文本中是否包含与视频不符的错误信息(准确性)和视频中主要内容是否被文本涵盖(全面性)两个角度评估视频文本的匹配程度。在图文预训练模型所提取的高质量特征基础上,该方法使用重构模块进行视频特征与文本特征之间的双向重构,并用重构误差反映准确性和全面性以实现更加准确的视频文本匹配。此外,由于当前视频描述评估领域缺乏中文基准数据集,本文还构建了两个中文视频描述评估数据集。实验结果表明,本文方法在公开的视频描述评估数据集、视频文本检索数据集以及本文所提数据集上均获得同期方法中最好的效果。

4. 针对视频时空冗余性所导致的大量计算负担问题,本文提出了一种层次化时空令牌合并方法,通过相邻帧令牌合并和帧内令牌合并减少视频的时空冗余。相邻帧令牌合并在视频相邻帧之间合并相似令牌,并将被合并令牌特征在相邻帧内共享,有效缓解令牌合并造成的信息损失问题。通过进行多次相邻帧令牌合并,本文方法在去除多帧内时序冗余的同时,形成了层次化的视频表示,促进视频的全局特征建模。帧内令牌合并在每一帧内进行相似令牌合并,进一步减少视频的时间和空间冗余。本文方法不改变图文预训练模型原有结构,能够较大程度地保留图文预训练模型中的丰富知识,实现准确且高效的视频文本匹配。实验结果表明,本文方法在较少精度损失下,将多种视频文本检索模型的视频处理速度提升了2-3倍。

语种中文
页码164
源URL[http://ir.ia.ac.cn/handle/173211/58532]  
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
chen yuxin. 面向视觉-语言的跨模态预训练与匹配方法研究[D]. 2024.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。