中国科学院机构知识库网格系统: 基于平行学习的艺术绘画图像描述算法研究

中国科学院机构知识库网格

Chinese Academy of Sciences Institutional Repositories Grid

基于平行学习的艺术绘画图像描述算法研究

文献类型：学位论文


作者	鲁越
答辩日期	2023-05-23
文献子类	博士
关键词	平行学习艺术绘画图像描述内容描述情感描述
英文摘要	随着信息技术的发展和公众对艺术观赏需求的增大，数字博物馆等在线平台逐渐提供了海量的绘画图像，方便了公众对绘画的获取和观赏。但与此同时，海量的绘画图像也为其系统化、智能化的管理带来了挑战。在此背景下，绘画图像描述任务应运而生，旨在根据绘画图像自动生成文本形式的人类自然语言，将图像模态转化为文本模态信息来描述绘画图像的内容和情感信息，在绘画图像智能大模型构建以及自动分类和检索等任务上具有重要的理论和应用价值。但目前，绘画图像描述的关键技术研究仍处于起步阶段，面临着标注数据稀缺、内容和情感信息难以提取等问题，亟需在训练数据构建、内容和情感特征学习等方面进行更深入的研究。近年来，针对绘画图像描述等多模态感知任务，研究者们提出了诸多基于机器学习和深度学习的研究方法。其中，平行学习是基于平行系统思想提出的一种机器学习理论框架，设计了描述学习、预测学习和引导学习三种主要学习方法。具体地，平行学习理论通过描述学习构建与实际系统相对应的人工系统，利用预测学习在人工系统中进行计算实验，利用引导学习促进实际系统的数据生成和模型推理，为绘画图像描述中的训练数据构建、内容和情感特征学习等问题提供了可行方法。面对绘画图像这一研究对象，针对绘画图像描述任务中存在的标注数据稀缺、内容特征难以提取和情感特征难以提取的问题，本文分别基于描述学习、预测学习和引导学习进行了研究。主要工作如下：（1）基于描述学习与虚实独立正则化的绘画图像内容描述。为了应对绘画图像内容描述中训练数据稀少的问题，当前研究主要采用图文交叉索引和模板化填充等方法进行研究，其输出文字在灵活性和多样性上存在不足。描述学习能够根据真实数据构建人工系统，从而产生带标注的虚拟数据。基于描述学习的思想，本文提出了基于艺术风格迁移的虚拟绘画数据集生成方法，将艺术风格迁移作为人工系统中的计算实验方法，构建了用于生成虚拟绘画图像的人工系统，缓解了绘画图像训练数据稀缺的问题以及对真实绘画训练数据的依赖。同时，由于自然图像和虚拟绘画图像具有不同的风格，在进行联合训练时，二者在风格特征上的数据分布差异限制了模型性能。为此，本文提出了虚实独立正则化的模型训练方法，对自然图像和虚拟绘画图像使用独立的正则化层进行特征提取和训练。最后，在真实绘画数据集上对模型性能进行评估，实验结果表明，相比于几种主流的图像描述模型，该模型具有较优的性能指标，在BLEU4、CIDEr和SPICE指标上相比于基线模型分别提升了26.08%、2.78%和12.96%。（2）基于预测学习与虚实语义对齐的绘画图像内容描述。绘画图像常具有抽象、变形和艺术化等特点，因而其内容特征难以提取，导致传统的绘画图像内容描述模型在描述性能和数据利用效率上存在不足。预测学习能够利用人工系统中的计算实验及其与实际系统间的交互来提升平行系统中模型的性能，为应对以上问题提供了契机。基于预测学习的思想，根据虚拟绘画图像与对应的自然图像间内容语义信息的一致性，本文设计了一种虚实语义对齐的损失函数，并提出了虚实语义对齐的训练方法，进而构建了一个虚实语义对齐的绘画图像内容描述模型，利用自然图像特征提升绘画图像内容描述的性能。最后，在无监督和小样本两个数据稀缺模式下对该模型进行测试。公开数据集上的实验结果表明，相比于主流的图像描述模型，该模型具有更优的绘画图像描述性能，在BLEU4、CIDEr和SPICE评价指标上分别提升了14.38%、17.58%和16.60%。同时，该模型在数据利用效率和可解释性上均有较好的效果。（3）基于引导学习与多级别虚拟数据的绘画图像情感描述。绘画图像情感描述是在内容描述基础上对绘画图像的进一步理解，其面临着情感特征难以提取和训练数据不够充足的挑战，本文以肖像画这一情感丰富的绘画题材为例进行了研究。引导学习能够通过虚拟数据引导机器学习模型的训练过程来提升模型的性能。基于引导学习的思想，本文从特征提取和模型训练两方面进行了方法设计。首先，当前研究主要使用内容导向的特征提取方法，包含的情感信息不够充足。为此，本文提出了情感信息增强的绘画图像特征提取方法，将人脸表情特征和人体姿态特征与传统的物体特征进行融合，从而为绘画图像情感描述提供更全面的情感相关信息。然后，由于当前研究存在训练数据不够充足的问题，模型容易在句子级别和单词级别出现过拟合的问题。为此，本文提出了多级别虚拟数据引导的训练方法。该方法根据真实绘画数据和绘画情感描述模型参数，通过句子级别和单词级别两方面的反馈信息生成虚拟数据，促进绘画情感描述模型获得有效和鲁棒的绘画情感描述性能。通过公开数据集对该模型进行测试，相比于几种主流的图像描述模型，该模型表现出了更优的绘画图像情感描述性能，在BLEU4、CIDEr和SPICE指标上相比于基线模型分别提升了7.19%、26.30%和31.99%。此外，辅助验证实验结果表明了该模型对图像扰动具备一定的鲁棒性。本文研究工作面向绘画图像描述任务，针对其中标注数据稀缺、内容和情感信息难以提取等问题，利用平行学习中的描述学习、预测学习和引导学习方法，分别提出了虚实独立正则化的绘画图像内容描述模型、虚实语义对齐的绘画图像内容描述模型和多级别虚拟数据引导的绘画图像情感描述模型，对绘画图像内容和情感信息生成了更加准确的自然语言文字描述。
学科主题	人工智能
语种	中文
页码	142
源URL	[http://ir.ia.ac.cn/handle/173211/52101]
专题	毕业生_博士学位论文
推荐引用方式 GB/T 7714	鲁越. 基于平行学习的艺术绘画图像描述算法研究[D]. 2023.

入库方式： OAI收割

来源：自动化研究所

浏览0

下载0

收藏0

其他版本

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。