基于多模态预训练模型的弱监督跨模态目标定位
文献类型:学位论文
作者 | 赵宸麟![]() |
答辩日期 | 2024-05-19 |
文献子类 | 硕士 |
关键词 | 弱监督 提示学习 跨模态目标定位 |
英文摘要 |
实现基于多模态预训练模型的弱监督跨模态目标定位方法需要考虑(1)缺少细粒度的标注信息(2)精细化的局部感知建模困难(3)人工定义的提示模板适应性差的三个主要问题,使得通过多模态预训练模型来解决跨模态目标定位问题仍然具有较大的挑战性。本文围绕如何在弱监督的设置下完成定位任务,以及如何克服预训练模型的预训练任务和下游任务之间的差异性,提出了两种解决方法,即部位可知提示学习和自适应提示学习。 论文的主要工作和创新点归纳如下: 1. 基于部位可知提示学习的弱监督跨模态目标定位。跨模态目标定位搭建起了视觉目标和语言实体之间的桥梁。尽管已有的基于预训练的方法能在一定程度上解决图像和文本中出现的多个实体的对齐问题,当仍存在一些情况使得模型忽略掉实体的边缘部位,即头、手臂或腿,并导致定位错误。针对上述问题,本文提出了基于部位可知提示学习的弱监督跨模态目标定位方法,通过在文本前方添加合适的提示文本使之与更加具体的细粒度信息对齐,迫使模型关注实体的在未添加提示文本时被忽略的精细部位。通过将模型对实体边缘部分的预测结果与实体的主要部分的预测结果结合起来,模型生成了对于实体更完整的注意力图,提高了定位准确率。在 RefCOCO 和 RefCOCO+ 两个数据集上进行的实验证明了模型的有效性。 2. 基于自适应提示学习的弱监督跨模态目标定位。提示学习在预训练模型应用至下游任务的方面能够发挥巨大的作用,可以调整模型的注意力实质更加适应定位任务的精细化感知需要。部位可知提示学习解决了预训练模型在推理阶段的注意力区域受限的问题,成功的使得模型注意力扩展到待推理实体的完整区域。然而,部位可知提示学习中的提示文本参数固定、泛化性差,且容易产生预测虚警。针对以上问题,本文提出了自适应提示学习,通过结合图像和文本的特征,自适应地生成用于指示实体部位的提示文本,使得模型在提示文本的引导下实现对实体区域更加全面的关注,提升了模型的定位效果。在 RefCOCO 和 RefCOCO+ 两个数据集上进行的实验证明了模型的有效性。 |
学科主题 | 模式识别 |
语种 | 中文 |
页码 | 64 |
源URL | [http://ir.ia.ac.cn/handle/173211/57454] ![]() |
专题 | 毕业生_硕士学位论文 |
推荐引用方式 GB/T 7714 | 赵宸麟. 基于多模态预训练模型的弱监督跨模态目标定位[D]. 2024. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。