中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
面向长尾分布的视觉识别关键技术研究

文献类型:学位论文

作者李俊
答辩日期2024-05
文献子类硕士
关键词长尾分布 协同学习 视觉语言多模态大模型 高效提示指令微调
英文摘要

    在符合现实世界数据分布的数据集上取得良好表现是一个模型走向实际部署应用的重要一步,然而现实世界数据分布通常呈现出长尾分布,这对现有的很多算法带来了挑战。长尾分布数据给模型训练带来的问题大致可以分为两个方面,一个是头部和尾部类别训练样本数差距过大导致模型对尾部类别的预测准确率明显偏低,另一个是尾部类别样本数太少,代表性不足,难以提供丰富的信息。本文从这两个方面出发,基于深度学习方法,对当前研究存在的一些问题进行了深入研究并提出了相应的解决办法,总结起来本文的贡献如下:
    1. 针对模型在头部尾部类别学习偏好存在差异的问题,本文提出了嵌套式协同学习框架。具体地,嵌套式协同学习框架通过协同学习多个专家模型来更好地利用有限数据,挖掘对视觉分类任务最重要的视觉特征。其中协同学习包括专家模型内的协同学习和专家模型间的协同学习,两种协同学习均有效地降低了模型预测的不确定性,使模型学到的知识在各个专家模型间传递,有效地提升了单个专家模型的性能。嵌套式关系则来自本文提出的难类别挖掘方法,其通过选择具有高预测分数的负类别作为困难类别,形成了局部类别集合与全体类别集合的嵌套关系。模型在嵌套关系下不仅可以从全局视角对所有类别进行建模学习,还可以从局部视角进行建模学习,这有助于模型捕获全局且稳定的特征,还有利于区分更加细致的特征,大大加强了模型对易混淆类别的分辨能力。该方法在多个长尾分布数据集上取得了最优的性能,大量的分析实验也证明了其有效性。
    2. 针对尾部类别样本数太少,代表性不足的问题,本文提出使用预训练的视觉语言多模态大模型来提供更丰富的额外信息,然而直接应用大模型会带来巨大的资源消耗,基于此本文提出了文本引导的指令微调方法,其能够在使用较低计算资源消耗的情况下实现预训练多模态大模型向下游长尾分类任务的迁移。文本引导的指令微调方法基于提示指令微调的技术路线,通过将类中心的学习后移降低了大量的GPU 显存消耗。同时由于将类中心学习后移,可学习提示指令数量减少,文本提出使用复合型的文本监督来提升提示指令的生成质量。具体地,文本监督被分为类别层面和内容层面,它们分别提供了类间可分性的监督和捕捉类内变化的作用。本文提出的文本引导的指令微调方法解除了模型在推理时对预定义类别名称的依赖,从而实现了更灵活的提示生成,同时减少了文本编码器的输入数据,大幅降低了GPU 显存消耗。该方法在长尾分布,小样本识别,域泛化等多个实验设置下均取得了显著的性能提升,证明了该方法的有效性与通用性。

语种中文
页码78
源URL[http://ir.ia.ac.cn/handle/173211/57129]  
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
李俊. 面向长尾分布的视觉识别关键技术研究[D]. 2024.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。