基于自回归预训练的多语言文本-图像理解方法研究
文献类型:学位论文
作者 | 田哲源![]() |
答辩日期 | 2024-05-19 |
文献子类 | 硕士 |
关键词 | 多语言模型 文本-图像跨模态理解 自回归预训练 参数微调 |
英文摘要 | 随着互联网技术的不断发展与大量不同语言的新型媒体业态的不断产生,数据,尤其是多模态、多语言数据,正在随之产生井喷式增长。图像和文本是最主要的互联网信息承载,在多模态、多语言数据中具有举足轻重的地位,受到了广泛关注。 一方面,多模态数据除了关注单一模态本身所带有的信息,还关注多模态数据之间的关联性,即跨模态信息。跨模态信息可以很好地用于完成下游任务的微调,可用于跨模态检索、图文理解等重要领域,具有极大的应用价值和经济价值。如何进行更好的跨模态信息理解成为了当前最热门的研究课题之一。另一方面,不同语言具有不同的编码方式、语法与组成元素等,对于研究多模态理解是一种新的挑战。科研人员不仅要研究如何获得跨语种、跨模态的信息表示,还要在此基础上解决跨语种、跨模态的理解问题,以便应用于多语言问答、跨语种检索、小语种理解等任务上,在社交媒体、国防安全等领域具有极高的研究意义。 本文主要关注对于多语言文本-图像理解方法构建这一问题,创新性地提出了基于统一自回归的跨语种跨模态预训练框架。本文首先针对互联网数据分布,设计了数据解耦的多语言文本-图像训练对齐目标。针对目前繁杂的预训练任务与视觉特征的利用,设计了统一的自回归预训练任务。最后,利用统一的自回归预训练模型框架设计了统一的下游任务微调方法,并且深入探讨了多模态文本-图像数据对于语种内部与跨模态的对齐性的影响。通过一些公开的数据集和测试指标通过参数微调的实验,证明了所给出算法的有效性。具体来说,本文的主要工作和贡献如下:
|
语种 | 中文 |
页码 | 74 |
源URL | [http://ir.ia.ac.cn/handle/173211/56490] ![]() |
专题 | 毕业生_硕士学位论文 |
推荐引用方式 GB/T 7714 | 田哲源. 基于自回归预训练的多语言文本-图像理解方法研究[D]. 2024. |
入库方式: OAI收割
来源:自动化研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。