中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
复杂场景图像中的文字检测方法研究

文献类型:学位论文

作者黄燃东
答辩日期2021-05-27
文献子类博士
授予单位中国科学院大学
授予地点中国科学院自动化研究所
导师徐波
关键词场景文本检测,注意力机制,训练样本不均衡,并行回归分割,卷积 神经网络
学位专业模式识别与智能系统
英文摘要

场景文字检测旨在精确检测自然场景图像中的文字区域,通常作为场景文
字识别的前置步骤。目前,场景文字检测仍存在许多极具挑战性的困难,例如
文字尺度、方向、形状、纵横比等因素变化多样,图像背景异常复杂等。克服
这些困难,需要研究鲁棒文字特征的提取方法和简洁高效检测框架的设计方法。
近几年,卷积神经网络有效地提升了场景文字检测应对各项挑战的能力。本文
在卷积神经网络基础之上展开研究,主要贡献如下:

1、针对场景文字检测的假阳性检测问题,本文提出了一种聚焦特征及分类
图的文字注意力混合机制。假阳性检测出现的原因是分类图与分类图输入特征
对文字和背景的区分性很弱。本文研究了聚焦特征的文字注意力机制,将注意
力分布图输入特征与分类图输入特征相乘融合,增强了分类图输入特征的区分
性;本文研究了聚焦分类图的文字注意力机制,将注意力分布图与分类图相乘
融合,增强了分类图的区分性;本文提出的聚焦特征及分类图的文字注意力混
合机制将注意力分布图输入特征的指数幂与分类图输入特征相乘融合,并将注
意力分布图与分类图相乘融合,同时增强了分类图输入特征的区分性与分类图
的区分性。实验表明本文提出的机制能够明显抑制假阳性检测。

2、针对场景文字检测的训练样本不均衡问题,本文提出了类平衡一次方
损失函数,用于解决检测准确度失衡问题。本文研究了抑制强背景交叉熵函数,
用于抑制容易负样本的损失权重;本文研究了类平衡自适应损失函数,在抑制
容易负样本损失权重的同时增大正样本损失权重,并侧重于困难正样本的训练;
本文提出的类平衡一次方损失函数赋予正负样本相等但方向相反的梯度来克服
交叉熵函数的梯度不平衡问题,并将容易负样本梯度置零来解决训练样本不均
衡问题。本文提出的函数同时考虑了正负样本的损失权重和梯度,能够显著增
强文字检测器对文字和背景的判别能力。
 

3. 针对任意形状文字检测方法复杂和低效率的问题,本文提出了一种基于
并行回归分割的文字检测方法,旨在并行回归文字外接水平矩形框和分割任意
形状文字。本方法包括四个模块:卷积特征提取与融合、网络输出、后处理和
特征语义增强机制。卷积特征提取与融合用于提取并融合图像卷积特征;网络
输出包括分类图分支、矩形框分支和文字中心性分支,其中分类图分支用于并
行分类和分割文字;矩形框分支用于回归文字外接水平矩形框;文字中心性分
支用于避免文字分割不完整和增强特征对文字和背景的区分性;后处理包含两
种测试方式、位置感知非极大值抑制和矩形框投影;特征语义增强机制用于进
一步增强特征对文字和背景的区分性。本方法构建了一个更简洁的任意形状文
字检测模型,超过了大多数文字检测方法的检测性能和速度。
 

语种中文
页码118
源URL[http://ir.ia.ac.cn/handle/173211/44557]  
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
黄燃东. 复杂场景图像中的文字检测方法研究[D]. 中国科学院自动化研究所. 中国科学院大学. 2021.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。