中国科学院机构知识库网格系统: 基于视觉构图建模的图像编辑问题研究

中国科学院机构知识库网格

Chinese Academy of Sciences Institutional Repositories Grid

基于视觉构图建模的图像编辑问题研究

文献类型：学位论文


作者	李德榜
答辩日期	2021-05-27
文献子类	博士
授予单位	中国科学院大学
授予地点	中国科学院自动化研究所
导师	黄凯奇
关键词	视觉构图建模图像编辑视觉美感图像裁剪图像子区域推荐
学位名称	工学博士
学位专业	模式识别与智能系统
英文摘要	本文研究了基于视觉构图建模的图像编辑问题，即通过对图像的视觉构图进行建模和评估，以进行后续的图像编辑操作。具体来说，本文主要关注于图像裁剪和图像子区域推荐这两个具体任务。这两个任务是图像编辑中基本但重要的操作，在摄影、艺术设计、影视处理和印刷业等场景下具有着巨大的应用价值。经过长期的发展，针对图像裁剪和图像子区域推荐的相关算法也取得了一些进展，但相关方法仍然存在着一些明显的不足。首先，如何使用大规模的具有廉价标注的数据或无标注数据对模型进行弱监督或无监督训练以增强模型在不同场景下的泛化能力是一个值得研究的问题。但由于无监督或弱监督场景下缺乏对边界框的标注，大多数相关方法都会采用基于滑动窗口的暴力搜索方式获得最终结果，导致搜索效率十分低下。另外，提高一个模型对于不同需求的自适应性，使其能够为不同需求产生相应的结果也是一个需要解决的问题。同时，一幅图像中不同区域之间的相对关系对于最终的整体评估也是十分重要的，如何利用好这些关系也是一个值得研究的问题。针对上述问题，本文主要开展了以下研究工作：（1）提出了一个基于强化学习和对抗学习的美学图像自动裁剪方法。本工作首先使用大规模的无标注数据根据先验知识构建了大量的训练数据对，并使用这些数据对训练一个美感评估模型。但不同于基于滑动窗口的暴力搜索方式，本工作采用基于强化学习的搜索策略对最优的裁剪区域进行搜索。本工作为搜索过程设计了一个动作空间，其中包含一系列对图像裁剪框的位置、形状和大小进行调整的动作，同时还包含了一个终止动作。本工作将初始裁剪框设置为整张输入图像，并使用上述动作在搜索过程中对裁剪框进行调整，直到终止动作被模型选取为止。并且根据美感评估模型的输出分数计算得到的奖励函数会在训练过程中诱导模型在巨大的搜索空间中找到具有较高美感分数的裁剪区域。同时，本工作在训练过程中还引入了对抗学习，使得基于强化学习的裁剪模型和美感评估模型之间通过相互对抗获得更为优秀的性能。实验结果表明，本工作提出的模型在性能和速度上都要优于基于滑动窗口的相关方法。（2）提出了一个基于元学习的指定形状图像自动裁剪方法。本工作将不同的形状需求视为不同的环境，并通过元学习使得模型能够快速地适应不同的环境。在具体实现中，本工作提出的模型由一个基础模型和两个元学习器（子网络）构成，给定不同的形状需求，元学习器会据此为基础模型预测相应的参数。由于基础模型的参数会随着不同的形状需求而改变，所以模型会根据不同的形状需求为一幅图像预测不同的结果。实验结果表明，本工作提出的模型确实能够根据不同的形状需求为同一张照片预测出不同的结果。（3）提出了一个基于区域间相对关系挖掘的图像子区域推荐方法。上述工作只会为一幅图像或一个具体形状需求预测一个对应的裁剪结果，但一幅图像中具有高构图质量的子区域往往不唯一，且某些应用场景需要模型推荐较多的子区域，所以本文进一步对图像子区域推荐问题进行了研究。为此，本文提出了一个基于关系图的模型来对一幅图像中不同区域间的相对关系进行挖掘，并利用挖掘得到的关系特征帮助模型更好地预测不同子区域的构图质量。实验结果表明，上述关系特征的挖掘过程会显著提升模型的性能。
语种	中文
页码	146
源URL	[http://ir.ia.ac.cn/handle/173211/44361]
专题	智能系统与工程
通讯作者	李德榜
推荐引用方式 GB/T 7714	李德榜. 基于视觉构图建模的图像编辑问题研究[D]. 中国科学院自动化研究所. 中国科学院大学. 2021.

入库方式： OAI收割

来源：自动化研究所

浏览0

下载0

收藏0

其他版本

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。