中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
音视频同步的说话人脸生成技术研究

文献类型:学位论文

作者庞有鑫
答辩日期2023-05
文献子类硕士
关键词数字虚拟人 音视频多模态 通用视频肖像编辑 属性解耦 自监督框架
英文摘要

说话人脸生成是数字虚拟人中很重要的一项任务,旨在将一个驱动视频或其中音频所对应的面部运动属性迁移到任意肖像图像上,最终生成一个新的说话人脸视频。
目前已有的方法由于无法做到对面部表达和头部姿态的解耦,因此并不能直接用于视频肖像编辑中。
事实上,目前姿态和表达解耦所面临的一个重大挑战是缺乏成对的数据,例如相同的姿势但不同的表达。
在缺少数据的情况下,目前只有一小部分借助3D Morphable Models (3DMMs)本身解耦属性的方法可以实现视频的编辑。
但是由于建模的限制,3DMM对于面部表达的重建并不准确,这也导致基于3DMM的方法对于面部属性的编辑准确度较低。

为了解决上述问题,本文提出了一个自监督框架,不借助成对数据和3DMM实现了人脸属性的解耦。
整个框架包含一个运动编辑模块、一个姿态生成器以及一个表达生成器。
其中运动编辑模块的功能分为三大部分,一是对人脸特征进行提取,得到高维的多尺度特征图,该特征图包含人脸的各种属性信息。
二是将人脸的头部姿态和面部表达属性映射到高维的隐空间当中,得到隐变量。
三则是可以实现在隐空间中对姿态和表达属性的解耦与编辑。
具体地,利用编码器来提取人脸多尺度特征和隐变量,利用多层感知器来对属性进行解耦,利用加法实现属性的编辑。
两个生成器的结构相同,但参数不同。每个生成器的工作模式均相同,即输入为编辑后的隐变量和人脸的多尺度特征,过程为学习光流来对特征进行扭曲,从而渲染得到最终的结果。此外,为了保证解耦的实现,本文设计了一种双向循环训练策略,并且提出了一组精心设计的约束条件。
首先,该训练策略只需要从同一个视频中随机挑选不同的两帧即可正常运行,通过自监督的形式自动构建成对数据,为解耦奠定基础。
其次,通过设计自重建损失函数和表达损失函数等关键约束,可以保证解耦的准确执行。
最后,本文执行了单属性驱动和多属性同时驱动等实验,通过量化和定性比较,证明了本文所提的方法可以独立控制姿态或表达,并可用于任意说话人脸视频的肖像编辑。

基于所提出的人脸属性解耦框架,本文可以实现视觉模态下的视频肖像人脸编辑,以及借助已有的音频驱动方法实现音频驱动视频进行肖像人脸编辑。

语种中文
页码78
源URL[http://ir.ia.ac.cn/handle/173211/52022]  
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
庞有鑫. 音视频同步的说话人脸生成技术研究[D]. 2023.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。