中国科学院机构知识库网格系统: 文本指导的视频生成方法研究

中国科学院机构知识库网格

Chinese Academy of Sciences Institutional Repositories Grid

文本指导的视频生成方法研究

文献类型：学位论文


作者	刘佳伟
答辩日期	2023-05
文献子类	硕士
关键词	基于人工智能的内容生成多模态视频生成
英文摘要	随着深度学习技术的发展，基于人工智能的内容生成已经开始在各个领域得到广泛应用，其中，由于互联网内容的视觉化和视频化，文本指导的视频生成正成为学术界和工业界都备受关注的研究领域。由人类自然语言作为条件控制的视频生成具有极强的可控性，在学术研究中数据的扩增、工业场景中的视频素材生成和视觉特效等方面都存在着广泛的应用前景。尽管现有的基于对抗生成网络、基于向量量化自编码器和基于扩散模型的方法已经实现了基本的文本到视频的生成，然而目前的文本指导的视频生成领域中仍有一些问题亟待解决。一方面，现有方法重点关注于视频图像帧的生成，然而真实的视频是由视觉内容和声音内容共同组成的多模态数据格式，声音是视频中重要的一个部分。为此，本文提出了文本指导的视频生成中一个新的子任务，即文本指导的有声视频生成，并提出了一个统一的有声视频生成方案。另一方面，现有视频生成模型通常有着较大的训练难度和训练参数量，而事实上预训练的文本到图像生成模型已经学习到了文本到视觉内容的生成能力，视频生成模型可以通过在其基础上额外学习时序建模能力得到，因此本文提出在预训练的文本到图像生成扩散模型的基础上增加额外的时序建模模块构建高效训练的视频生成模型。论文的主要工作和创新点归纳如下: • 基于音视频向量量化自编码器的有声视频生成。在文本指导的有声视频研究中，本文提出一个基于向量量化自编码器的统一生成方案。使用向量量化自编码器分别对视频图像帧和声音梅尔频谱做量化编码，然后使用自回归 Transformer 序列生成模型做视觉和声音离散标识符的生成。为了在编码阶段引入多模态关联以优化音视频量化表征，本文提出混合对比学习方法，其中模态间对比学习用于引入跨模态关联，模态内对比学习用于保持单模态特征空间的稳定。进一步本文提出了跨模态注意力模块，以在视觉和声音之间构建局部层面的多模态关联。在序列生成阶段，本文提出模态交替序列格式以使得生成的标识符可以关注到文本-视觉-声音三个模态的信息。此外，为了解决现有文本-视频对数据集缺乏对声音的描述的问题，本文构建了人工标注的包含对视觉和声音两个模态描述的大规模视频数据集。通过以上方法，本文实现了出色的文本到有声视频的生成。 • 基于扩散模型的文本指导的视频生成高效训练方法。文本到图像生成模型具备基本的多模态关联能力和视觉内容生成能力，本文基于最先进的预训练文本到图像生成扩散模型构建视频生成模型，继承并冻结其大部分参数以减少训练参数量并保持其生成能力。为了保持帧间连贯性，本文提出了主体保持注意力机制，使当前生成帧可以关注到前一时刻生成帧全空间位置的特征，从而保持相邻两帧之间的主体内容一致。此外，为了引入文本与时序多帧之间的多模态关联，本文提出时序跨模态交叉注意力模块，在交叉注意力前使用时序卷积层整合多帧信息。通过以上设计，本文在大大减少训练参数量的条件下，在文本指导的视频生成上实现出色性能。
学科主题	人工智能
语种	中文
页码	86
源URL	[http://ir.ia.ac.cn/handle/173211/51922]
专题	毕业生_硕士学位论文自动化研究所_模式识别国家重点实验室_图像与视频分析团队
推荐引用方式 GB/T 7714	刘佳伟. 文本指导的视频生成方法研究[D]. 2023.

入库方式： OAI收割

来源：自动化研究所

浏览0

下载0

收藏0

其他版本

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。