基于文生图模型的商品背景自动更换
文献类型:学位论文
作者 | 邓鹏飞![]() |
答辩日期 | 2024-05-20 |
文献子类 | 硕士 |
关键词 | 文生图模型,扩散模型,背景更换,主体概念注入,边缘控制,商品 |
英文摘要 | 文本驱动的商品背景的自动更换是快速制作一些商业广告的重要技术,借
助文生图模型的能力,只需要通过文本描述既可以将提供的商品放置在任何由
文本描述的场景中,并且可以使用专业的场景数据训练专业场景的模型,让背景
更换可以达到商业应用的级别。文本驱动的商品背景的自动更换旨在利用文本
描述商品背景,使得给定的商品可以很好的融合进由文本描述的场景中。目前已
有的方法在利用文本描述给商品进行背景更换时,无法很好地完全保持给定商
品的细节,并且会发生概念认知错误和边缘变形等问题,因此并不能应用在制作
商业广告的场景中。其中基于微调模型的参考图个性化生成方法使用几张参考
图微调整个扩散模型的参数或者微调扩散模型网络结构中的部分参数,主要是
跨模态注意力和自注意力模块中的线性层参数,通过微调模型来学习给定参考
图像的商品主体信息的方式无法百分之百地复刻商品主体的细节,在为参考商
品更换背景时,一般都会出现形状变形或者表面的材质纹理等发生变化的问题。
基于图像编码器的参考图特征注入方式则是通过图像编码器提取参考图的特征,
然后注入到去噪模型中,但是这种方式很难保持商品的细节,因为图像编码器在
提取特征时存在信息丢失的问题。基于扩散模型的图像融合或者传统的基于深
度学习的图像融合方式在对商品和背景进行融合时,都会导致商品表面材质纹
理光照信息等发生不同程度的变化。基于图像补全的方式都会导致概念认知错
误和商品边缘形状的变形问题。
为了使得文生图模型可以实现为给定商品更换背景的功能,需要保证给定
商品可以和文本描述的背景自然融合,并且可以百分之百地保持商品的表面细
节信息和对商品形状的精确控制。为了实现上述功能,本文设计了基于文生图模
型的商品背景自动更换框架,框架包括概念注入模块和边缘控制模块。概念注入
模块可以将产品的语义概念注入到基础模型中,使基础模型知道文本中描述的
商品主体与给定参考图像的商品主体一致。边缘控制模块不仅可以注入对象特
征信息,还可以提供细粒度的边缘控制,以确保产品的边缘不会扩展。本文的基
础模型是隐空间稳定扩散(Stable Diffusion)的图像补全模型,基于此模型训练
概念注入模块和边缘控制模块来实现准确的概念认知和边缘控制功能。本文的
核心贡献如下:
• 设计基于文生图模型的概念注入模块和边缘控制模块,实现准确的概念
认知和边缘控制。
• 提出一个关于利用文生图模型根据文本为商品进行背景更换的测试基准。
• 经实验证明,本文的方法可以利用文生图模型根据文本描述自由地更换
给定商品的背景,不出现概念认知错误和边缘变形问题。 |
语种 | 中文 |
页码 | 74 |
源URL | [http://ir.ia.ac.cn/handle/173211/56496] ![]() |
专题 | 毕业生_硕士学位论文 |
推荐引用方式 GB/T 7714 | 邓鹏飞. 基于文生图模型的商品背景自动更换[D]. 2024. |
入库方式: OAI收割
来源:自动化研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。