中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
基于神经辐射场的动态人脸编辑

文献类型:学位论文

;
作者杨嵩林
答辩日期2024-05 ; 2024-05
文献子类硕士 ; 硕士
关键词神经辐射场 动态人脸编辑 人脸属性编辑 人脸运动编辑 神经辐射场 动态人脸编辑 人脸属性编辑 人脸运动编辑
英文摘要

生成式人工智能理论的突破,极大地促进了数字内容创作的繁荣发展,为计算机视觉研究带来了全新的范式变革,进而推动了人脸合成与编辑技术的重大进步和广泛应用。尽管目前该技术已取得令人瞩目的效果,但基于二维图像表征的生成模型仍受限于对人脸三维结构的感知不足。这导致在动态人脸编辑任务,如视角变换或序列化视频生成中,难以维持人脸几何及纹理的一致性。为此,学者们尝试通过引入人脸神经辐射场来解决该问题。然而,基于神经辐射场的动态人脸编辑仍面临诸多挑战,人脸动态编辑任务往往会破坏神经辐射场已学到的具有较高一致性的人脸表征。针对这些挑战,本文从采用三维人脸先验控制神经辐射场生成模型出发,首先对空间视角变化下三维一致的人脸属性编辑展开研究,验证了三维信息对提升时序一致的重要性;然后,本文在时序维度上进行拓展,提出了多模态信息融合的动态神经辐射场构建方法,实现了帧间平滑的说话人脸视频编辑;最后,本文深入研究无需三维先验的人脸神经辐射场稠密对应算法,进一步提升精细化人脸运动编辑性能。本文涉及到三项研究内容,分别是基于神经辐射场反演的人脸属性动态编辑、基于神经辐射场多模态融合的动态人脸编辑以及基于神经辐射场稠密对应的动态人脸编辑,具体贡献总结如下:

1) 针对基于神经辐射场反演的属性编辑结果三维一致性较差的问题,本文提出了一种基于三维感知的人脸编码器,用于提升人脸属性编辑在多视角渲染挑战下的三维一致性。该编码器引入人脸参数化模型作为三维先验,能够在对神经辐射场生成模型进行反演的过程中解耦人脸几何及纹理表征。进一步地,本文设计了一种双流属性编辑模块,能够充分利用上述解耦表征实现几何及纹理的灵活编辑。在此基础上,本文将三维感知编码拓展至序列化视频编辑,验证了该编码在序列化动态视频挑战下保持三维时序一致性的优势。

2)针对基于人脸神经辐射场说话人视频编辑依赖大量目标人物源视频训练数据、帧间抖动等问题,本文提出了一种基于文本编辑的人脸动态神经辐射场框架,实现了说话人脸视频内容的增加、删除和替换。该框架从三方面提升现有说话人脸视频编辑的性能:一是将视频动作预测建模为非自回归模型,使其能够在大规模说话人脸数据集上进行高效训练,进一步提升模型对“语音 - 视频”映射先验的学习效率;二是采用“预训练+微调”的个性化动态人脸神经辐射场建模方式,平衡了训练时间、目标人物源视频数据量与生成效果的不同需求;三是引入视频上下文动作序列作为先验,提升模型在预测和编辑人脸动作序列时的平滑性。

3) 针对采用人脸三维先验方法建模不同人脸神经辐射场之间稠密对应的局限性,本文提出了一种人脸神经辐射场稠密对应方法,能够实现不同人脸神经辐射场之间的隐式点对应,从而完成精细化人脸表情及姿态迁移,克服了之前方法无法对人眼及头发等区域进行有效信息编码的问题。本文采取三平面(Tri-Plane)作为基础神经辐射场表征,并将其解构为标准型空间、身份形变与运动形变。针对运动形变,本方法将运动信息映射为一组可学习的正交平面基的加权和。该方法是领域内最先实现无需人脸三维先验就可完成单图输入的人脸神经辐射场驱动的工作之一。

;

生成式人工智能理论的突破,极大地促进了数字内容创作的繁荣发展,为计算机视觉研究带来了全新的范式变革,进而推动了人脸合成与编辑技术的重大进步和广泛应用。尽管目前该技术已取得令人瞩目的效果,但基于二维图像表征的生成模型仍受限于对人脸三维结构的感知不足。这导致在动态人脸编辑任务,如视角变换或序列化视频生成中,难以维持人脸几何及纹理的一致性。为此,学者们尝试通过引入人脸神经辐射场来解决该问题。然而,基于神经辐射场的动态人脸编辑仍面临诸多挑战,人脸动态编辑任务往往会破坏神经辐射场已学到的具有较高一致性的人脸表征。针对这些挑战,本文从采用三维人脸先验控制神经辐射场生成模型出发,首先对空间视角变化下三维一致的人脸属性编辑展开研究,验证了三维信息对提升时序一致的重要性;然后,本文在时序维度上进行拓展,提出了多模态信息融合的动态神经辐射场构建方法,实现了帧间平滑的说话人脸视频编辑;最后,本文深入研究无需三维先验的人脸神经辐射场稠密对应算法,进一步提升精细化人脸运动编辑性能。本文涉及到三项研究内容,分别是基于神经辐射场反演的人脸属性动态编辑、基于神经辐射场多模态融合的动态人脸编辑以及基于神经辐射场稠密对应的动态人脸编辑,具体贡献总结如下:

1) 针对基于神经辐射场反演的属性编辑结果三维一致性较差的问题,本文提出了一种基于三维感知的人脸编码器,用于提升人脸属性编辑在多视角渲染挑战下的三维一致性。该编码器引入人脸参数化模型作为三维先验,能够在对神经辐射场生成模型进行反演的过程中解耦人脸几何及纹理表征。进一步地,本文设计了一种双流属性编辑模块,能够充分利用上述解耦表征实现几何及纹理的灵活编辑。在此基础上,本文将三维感知编码拓展至序列化视频编辑,验证了该编码在序列化动态视频挑战下保持三维时序一致性的优势。

2)针对基于人脸神经辐射场说话人视频编辑依赖大量目标人物源视频训练数据、帧间抖动等问题,本文提出了一种基于文本编辑的人脸动态神经辐射场框架,实现了说话人脸视频内容的增加、删除和替换。该框架从三方面提升现有说话人脸视频编辑的性能:一是将视频动作预测建模为非自回归模型,使其能够在大规模说话人脸数据集上进行高效训练,进一步提升模型对“语音 - 视频”映射先验的学习效率;二是采用“预训练+微调”的个性化动态人脸神经辐射场建模方式,平衡了训练时间、目标人物源视频数据量与生成效果的不同需求;三是引入视频上下文动作序列作为先验,提升模型在预测和编辑人脸动作序列时的平滑性。

3) 针对采用人脸三维先验方法建模不同人脸神经辐射场之间稠密对应的局限性,本文提出了一种人脸神经辐射场稠密对应方法,能够实现不同人脸神经辐射场之间的隐式点对应,从而完成精细化人脸表情及姿态迁移,克服了之前方法无法对人眼及头发等区域进行有效信息编码的问题。本文采取三平面(Tri-Plane)作为基础神经辐射场表征,并将其解构为标准型空间、身份形变与运动形变。针对运动形变,本方法将运动信息映射为一组可学习的正交平面基的加权和。该方法是领域内最先实现无需人脸三维先验就可完成单图输入的人脸神经辐射场驱动的工作之一。

学科主题模式识别 ; 模式识别
语种中文 ; 中文
页码96 ; 96
源URL[http://ir.ia.ac.cn/handle/173211/57538]  
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
杨嵩林. 基于神经辐射场的动态人脸编辑, 基于神经辐射场的动态人脸编辑[D]. 2024, 2024.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。