受限场景下知识引导的人脸图像编辑研究
文献类型:学位论文
作者 | 吕月明![]() |
答辩日期 | 2024 |
文献子类 | 博士 |
关键词 | 受限场景 人脸图像编辑 生成对抗网络 扩散模型 |
英文摘要 | 人脸图像作为最直观的生物特征,在人类文化和社会交流中占据重要地位。自古以来,人们便以多种形式记录和描绘人脸。随着近现代照相设备的不断升级和互联网技术的飞速发展,人脸数字照片得到普及,人们可以方便地使用各种编辑软件对人脸图像进行编辑和美化。近年来,人工智能技术的蓬勃发展更是为人脸图像编辑带来了更高的灵活性、可控性和交互性,为各行业带来了丰富的创新性和广阔的可能性。 鉴于人脸图像编辑技术的广泛应用和重要价值,它已成为学术界的研究热点,并得到了迅速的发展。然而,当前的人脸图像编辑技术仍面临多种受限场景,主要体现为样本受限(存在阴影、遮挡或大姿态的困难样本稀缺)、内容受限(丰富纹理和复杂内容等内容不足)以及标注受限(人脸属性标注的数量有限)三大难点问题。这些限制不仅影响训练数据集的多样性和完整性,更导致模型在实际应用中的鲁棒性和泛化能力受限。为克服上述挑战,本文的总体研究思路是在数据驱动的基础上,引入不同形式的知识进行引导。 本文的主要工作和创新点归纳如下: 1. 针对训练数据中困难样本受限问题,提出了一种三维先验知识引导的妆容编辑方法。在人脸组件编辑领域,妆容编辑是一个关键任务,不仅与皮肤、眼部、唇部等多种人脸生物特征密切相关,而且在人脸认证和隐私保护等应用场景具有重要价值。因此,探索一个在样本受限情况下仍能保持鲁棒的妆容编辑模型尤为关键。具体而言,该方法通过三维人脸模型获取人脸图像的形状和纹理,并在纹理空间提出UV纹理生成器来执行编辑。为了提高编辑的准确性和鲁棒性,利用UV空间中的人脸对称先验知识,引入了妆容调整模块和妆容编辑模块。得益于UV空间中姿态和表情变化的显式归一化,该方法在大姿态情况下仍能实现鲁棒的编辑。基于上述提出的妆容编辑模型,进一步拓宽其在人脸隐私保护方面的应用。具体而言,通过引入三维视角和三维人脸可见性图等额外的人脸三维先验知识,设计了一种对抗性妆容生成模型。该模型可以在生成的妆容图像中添加扰动,有效隐藏原始身份,使得未经授权的人脸识别系统难以识别。广泛的定性和定量实验表明,该方法不仅在处理阴影、遮挡和大姿态等困难样本受限场景下实现了鲁棒的妆容编辑,而且通过引入妆容攻击机制,能够以高成功率保护个人身份不被未授权的人脸识别系统识别。 2. 针对训练数据中复杂内容受限问题,提出了一种层次化知识引导的细粒度区域自适应归一化方法,旨在实现对人脸各个组件的精确编辑。该方法自适应地从粗粒度到细粒度地编码风格特征,精确地生成细粒度的风格和纹理,同时保持对整体色调等粗粒度特征的捕捉。具体而言,首先提出了空间感知金字塔池化,构建了一个风格金字塔,该金字塔在不同层级上计算风格参数,以表示多层次的风格信息。随后,提出了动态门控机制,该机制能够动态地整合不同层级的风格信息,学习对于给定的每个组件区域而言,更为重要的风格特征。通过该机制,模型能够自适应地融合特征,确保生成的风格既符合整体风格,又能在细节上呈现出精细变化。为全面评估该方法的有效性,构建了名为Makeup-Complex的测试数据集。该数据集包含多种姿态下的复杂妆容样本,用于测试该方法在处理复杂内容受限问题时的细粒度编辑能力。实验结果表明,该方法能够精确地生成具有细粒度特征的图像结果。 3. 针对训练数据中属性标注受限问题,受文本-图像预训练模型(如CLIP模型)启发,提出了一种跨模态语义知识引导的通用属性编辑方法。CLIP模型通过在海量的图像-文本对上进行训练,建立了图像与文本之间的丰富语义关联。因此,该方法引入CLIP模型的图像-文本知识以表示人脸图像的多样属性,可以减少对属性标注的依赖。具体而言,首先提出了CLIP差值空间的概念,并对该空间进行了深入分析,证明了其良好的对齐特性。基于该特性,进一步提出了一种差值编辑方法。该方法能够在两种不同类型的生成模型上实现有效、通用的编辑。为了拓展该方法的应用范围,还提出了一种风格条件扩散模型。该模型结合了StyleGAN的语义空间,对条件扩散模型的正向和反向过程进行条件控制。为验证方法的有效性,进行了多项实验,包括潜在空间插值、真实图像重建、风格混合及文本驱动编辑等方面的对比。实验结果显示,该方法在上述任务中均表现优异。 |
语种 | 中文 |
页码 | 146 |
源URL | [http://ir.ia.ac.cn/handle/173211/56566] ![]() |
专题 | 自动化研究所_毕业生 毕业生_博士学位论文 |
推荐引用方式 GB/T 7714 | 吕月明. 受限场景下知识引导的人脸图像编辑研究[D]. 2024. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。