非受限场景下文本到图像的生成方法研究
文献类型:学位论文
作者 | 孙建新![]() |
答辩日期 | 2024-05 |
文献子类 | 博士 |
关键词 | 生成式对抗网络,扩散模型,文本到图像生成,人脸图像编辑 |
英文摘要 | 在人工智能研究中,文本与图像扮演着不可或缺的核心角色,它们是最基础且广泛使用的两种信息载体,并分别对应人类认知的根本模式:语言逻辑抽象与视觉形象直觉。随着人工智能技术的突飞猛进,这两种信息表达方式的交互融合变得越来越切实可行,尤其是在文本到图像生成任务上,这一趋势尤为引人注目。此项技术的演进不仅成功跨越了语言与视觉的壁垒,也为包括设计辅助、教育、娱乐和艺术创作在内的多个应用领域带来了创新的机遇。 尽管自然语言处理与计算机视觉两大学科已取得显著进步,然而,现有的文本至图像生成方法普遍过于倚重预设的模板输入模式,导致其在实际应用中缺乏必要的灵活度与自适应能力。本文聚焦于非受限场景下文本到图像生成,旨在突破文本到图像生成过程中文本数量与长度,输入内容与形式,生成场景等方面的限制。文章首先从相对成熟的图像生成子领域——人脸图像出发,探讨了基于多文本输入的人脸生成技术,继而在更为多样和灵活的输入环境下,本文进一步致力于实现自由式文本至人脸生成的高精确度与高分辨率目标。进而,借助于文本至人脸生成领域的既有成果,并结合最先进的扩散模型技术,本文进一步拓宽研究视野,探究更广阔复杂场景下的开放环境文本到图像生成难题。本文遵循了从特殊到一般、由浅入深的研究路径,系统地探究了文本至图像生成的各种情境及其挑战。 论文的主要工作和创新点可以归纳如下: 1. 基于语义嵌入的多文本到人脸生成。在以生成式对抗网络为基础的文本到图像生成研究中,许多研究集中于结构相对简单的图像对象,如植物、鸟类等。然而,在复杂度更高的人脸图像生成任务中,尤其是融合多重文本描述的情况下,相关研究相对较少,这主要归因于缺乏高效的算法框架和规模大、细节丰富的数据集。面对这一挑战,本文提出了一个专门针对多文本输入设计的新型语义嵌入与注意力网络架构,以期生成与描述精准匹配的人脸图像。本文提出的语义特征注入模块赋予了模型整合多元文本信息的能力。同时,引入的多文本注意力机制能够高效融合不同文本源的词汇特征,进而增强了对人脸细节的精确复原。为了更准确地构建出与文本描述相符的人脸特征,本文设计了一种属性损失机制来指导模型的生成过程。此外,考虑到现有数据集在规模和描述精确度上的局限性,本文构建了第一个人工标注的大规模人脸描述数据集,并为每张人脸图像提供了十份详细的文本描述。一系列实验结果充分证实了该技术在基于多文本描述生成人脸图像方面的高效性和准确性。 2. 自由式文本到人脸生成。 3. 基于语义细化的精细化文本到图像生成。 |
学科主题 | 信息科学与系统科学 |
语种 | 中文 |
页码 | 99 |
源URL | [http://ir.ia.ac.cn/handle/173211/57175] ![]() |
专题 | 自动化研究所_智能感知与计算研究中心 毕业生_博士学位论文 |
推荐引用方式 GB/T 7714 | 孙建新. 非受限场景下文本到图像的生成方法研究[D]. 2024. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。