中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
基于自回归预训练的多语言文本-图像理解方法研究

文献类型:学位论文

作者田哲源
答辩日期2024-05-19
文献子类硕士
关键词多语言模型 文本-图像跨模态理解 自回归预训练 参数微调
英文摘要

   随着互联网技术的不断发展与大量不同语言的新型媒体业态的不断产生,数据,尤其是多模态、多语言数据,正在随之产生井喷式增长。图像和文本是最主要的互联网信息承载,在多模态、多语言数据中具有举足轻重的地位,受到了广泛关注。

        一方面,多模态数据除了关注单一模态本身所带有的信息,还关注多模态数据之间的关联性,即跨模态信息。跨模态信息可以很好地用于完成下游任务的微调,可用于跨模态检索、图文理解等重要领域,具有极大的应用价值和经济价值。如何进行更好的跨模态信息理解成为了当前最热门的研究课题之一。另一方面,不同语言具有不同的编码方式、语法与组成元素等,对于研究多模态理解是一种新的挑战。科研人员不仅要研究如何获得跨语种、跨模态的信息表示,还要在此基础上解决跨语种、跨模态的理解问题,以便应用于多语言问答、跨语种检索、小语种理解等任务上,在社交媒体、国防安全等领域具有极高的研究意义。

        本文主要关注对于多语言文本-图像理解方法构建这一问题,创新性地提出了基于统一自回归的跨语种跨模态预训练框架。本文首先针对互联网数据分布,设计了数据解耦的多语言文本-图像训练对齐目标。针对目前繁杂的预训练任务与视觉特征的利用,设计了统一的自回归预训练任务。最后,利用统一的自回归预训练模型框架设计了统一的下游任务微调方法,并且深入探讨了多模态文本-图像数据对于语种内部与跨模态的对齐性的影响。通过一些公开的数据集和测试指标通过参数微调的实验,证明了所给出算法的有效性。具体来说,本文的主要工作和贡献如下:

  • 提出了一种多语言文本-图像数据解耦的多模态多语言对齐方式。多语言文本-图像对齐数据集在互联网分布极少,而目前的研究对于这一类数据集又极度依赖,限制了在数据集层面的选择,使用机器翻译的多语言文本-图像数据也会引入额外噪声,进一步限制模型的性能。针对这一问题本文提出了将多语言文本-图像数据依托英文解耦为多语言-英文文本数据与英文文本-图像数据两种存量丰富的类型,并经由英文空间进行对齐,实现了更好的跨语种跨模态表示,并在下游任务上证明了该方法的有效性。
  • 提出了一种统一的自回归预训练方法。针对当前多语言文本-图像预训练研究基本采用图像辅助的文本掩码恢复任务来实现图像和文本空间的对齐,无法直接有效地利用视觉信息这一问题,本文提出了经由统一的生成式自回归预训练来统一所有的预训练任务,一方面这种统一性可以简化训练目标函数,使模型训练难度下降,另一方面,可以有效地利用视觉信息构建起更好的文本和图像空间的联系,获得更好的监督方式。同时,这样一种统一的自回归预训练也契合了前述数据解耦的预训练数据结构。本文也在多个下游任务上测试了这样一种方法在构建跨模态和跨语言跨模态联合表示有效性。
  • 基于本研究提出的统一自回归预训练模型结构,提出了一种统一的下游任务参数微调方式。该方式可以在不调整模型结构的基础上实现对于下游任务的迁移,降低了迁移过程在超参数适应和模型微调过程中的难度,在多语种多类别的下游任务上也证明了统一自回归预训练和统一下游任务参数微调的有效性。同时针对多语言文本-图像数据,本文还针对大语种对小语种种间和跨模态间对齐性影响进行了探究,得到了一些有价值的结论。
语种中文
页码74
源URL[http://ir.ia.ac.cn/handle/173211/56490]  
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
田哲源. 基于自回归预训练的多语言文本-图像理解方法研究[D]. 2024.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。