中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
自然场景图像中的文本分割方法研究

文献类型:学位论文

作者李天佐
答辩日期2024-05-26
文献子类硕士
关键词文本分割、自适应缩放、自注意力机制、金字塔特征、半监督训练
英文摘要

自然场景图像中,文本分割技术可以获取像素级的文本掩码,辅助文本检测、文本擦除、文本编辑和文本识别等下游任务。自然场景图像中的文本往往存在背景复杂、尺度多变以及字体扭曲等问题,给文本分割带来巨大的挑战。现有的研究方法往往通过引入文本识别提高文本分割的性能,并且模型训练使用的是全监督算法。本文主要从文本分割模型和半监督文本分割训练方法两个方面进行深入研究,前者在不引入额外字符标注的情况下,改进文本分割模型。后者对半监督文本分割方法进行研究,在少量强标注数据训练基础上,充分利用大量无标注场景文本图像。本文主要研究内容和成果如下:

1.提出一种基于自适应尺度缩放和金字塔特征融合增强的场景文本分割方法。首先通过评估文本在场景图像中的密度,计算输入图像的最优尺度并进行自适应尺度缩放,从而提高模型的鲁棒性和泛化能力;并利用骨干网络提取的多分辨率特征,进行基于自注意力机制的特征融合,提取文本内与文本间的语义信息,一定程度上降低尺度问题对模型的影响。实验结果证明该方法在多个文本分割数据集上的有效性,并表明即使没有采用文本识别进行辅助训练,也可以取得较好的性能。

2.提出一种基于一致性正则化的半监督文本分割训练方法。首先借助自训练框架,为无标注数据生成伪标签,并根据置信度计算优化伪标签,用于半监督学习。引入可学习参数的特征扰动,构造基于一致性正则化的半监督损失函数。在后续的训练过程中,分别给予标注数据和无标注数据不同的损失函数权重,使高置信度的伪标签参与模型训练,低置信度的伪标签不参与模型参数的更新,从而在精度损失较小的前提下,一定程度上降低了模型对标注数据的依赖。最后在多个数据集上与其他几个半监督训练方法进行比对,验证了本文方法的有效性。

语种中文
页码80
源URL[http://ir.ia.ac.cn/handle/173211/56671]  
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
李天佐. 自然场景图像中的文本分割方法研究[D]. 2024.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。