音视频同步的说话人脸生成技术研究
文献类型:学位论文
作者 | 庞有鑫![]() |
答辩日期 | 2023-05 |
文献子类 | 硕士 |
关键词 | 数字虚拟人 音视频多模态 通用视频肖像编辑 属性解耦 自监督框架 |
英文摘要 | 说话人脸生成是数字虚拟人中很重要的一项任务,旨在将一个驱动视频或其中音频所对应的面部运动属性迁移到任意肖像图像上,最终生成一个新的说话人脸视频。 为了解决上述问题,本文提出了一个自监督框架,不借助成对数据和3DMM实现了人脸属性的解耦。 基于所提出的人脸属性解耦框架,本文可以实现视觉模态下的视频肖像人脸编辑,以及借助已有的音频驱动方法实现音频驱动视频进行肖像人脸编辑。 |
语种 | 中文 |
页码 | 78 |
源URL | [http://ir.ia.ac.cn/handle/173211/52022] ![]() |
专题 | 毕业生_硕士学位论文 |
推荐引用方式 GB/T 7714 | 庞有鑫. 音视频同步的说话人脸生成技术研究[D]. 2023. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。