中国科学院机构知识库网格系统: 基于深度学习的场景文字检测与识别

中国科学院机构知识库网格

Chinese Academy of Sciences Institutional Repositories Grid

基于深度学习的场景文字检测与识别

文献类型：学位论文


作者	杜臣
答辩日期	2021-08-04
文献子类	博士
授予单位	中国科学院自动化研究所
授予地点	中国科学院自动化研究所
导师	王春恒
关键词	文字检测文字识别特征聚合文字边缘感知中心线矫正
学位名称	工学博士
学位专业	模式识别与智能系统
英文摘要	场景中的文字信息是图像高层次语义的一种重要载体，能够为理解场景提供丰富和准确的语义信息。通过文字检测与识别技术，让计算机自动理解图像和视频包含的高层次语义信息，并利用得到的信息推动更多的应用，对计算机视觉技术的发展具有重要的意义。近年来，随着深度学习技术的发展，基于深度学习的文字检测与识别技术在无人驾驶、智慧金融、在线教育、图文监管、信息检索等诸多应用场景中扮演起重要的角色，但众多的应用场景也给文字检测与识别技术带来新的问题与挑战。在自然场景图像文本识别、网络图像文本识别等应用场景中，由于图像中背景比较复杂、类文本目标多，以及图像中的文字对象存在文字形状、字符方向、排版格式的多样性，文字自动检测和识别的性能依然不理想，存在很多问题亟需解决。本文研究基于深度学习的场景文字检测与识别，在对国内外相关技术进行详细综述的基础上，围绕基于深度学习的场景文字检测与识别方法在模型设计与应用中的相关问题展开研究，具体包括：场景图像中的文字检测，无约束阅读视角的文本识别，场景图像中端到端的文字检测与识别。本文的主要工作和贡献包括以下内容： 1. 提出了一种融合边缘感知和区域感知的场景文字检测方法针对场景图像中的任意方向的文字检测问题，本文提出了一种融合边缘感知和区域感知的场景文字检测方法。该方法将文字检测问题设计为文字区域预测、文字边缘预测和文本框预测三项可通过卷积神经网络模型进行学习的任务。该方法设计的文字检测监督任务减少了文字区域内背景信息对基于深度学习的文字检测模型学习过程的干扰，从而减少背景纹理干扰导致的文字误检。相比于已有的文字检测方法，该方法能够更精确地检测场景图片中任意大小、方向的文字，在公开数据集上取得了更好的检测结果。 2. 提出了一种基于多尺度特征选择性聚合的场景文字检测方法在基于深度学习的场景文字检测方法中，为应对文字的尺度变化问题，通常会在卷积神经网络特征提取阶段采用高层特征和低层特征跨层融合的特征提取方式。本文在实验中发现，卷积神经网络提取的低层特征包含过多的背景纹理特征，这些背景纹理特征和文字纹理特征区分性不强，在和高层特征融合用于后续文字检测任务时，导致检测模型产生较多误检。为此，本文提出了一种基于多尺度特征选择性聚合的场景文字检测方法。该方法通过提出的特征选择性聚合机制，从特征层次抑制复杂纹理背景对检测结果的干扰，提升场景图像文字检测性能。 3. 提出了一种基于中心线矫正和多视角特征聚合的无约束阅读视角文本识别方法无约束阅读视角文字是指存在弯曲变形、字符朝向变化的文字，它们在场景图像中广泛出现，且难以识别。为此，本文提出了一种基于中心线矫正和多视角特征聚合的无约束阅读视角文本识别方法。在该方法中，中心线矫正机制能够在识别前对输入的图片进行自适应的矫正，将图像中的弯曲文本行矫正为水平且分布均匀的文本行，多视角特征聚合机制能够自适应的学习图像中文字方向的变化，提取更易于文字识别的特征。中心线矫正模型和多视角特征聚合模型均采用以文本识别结果为导向的弱监督方式进行学习，无需额外的人工标注。整个识别算法可对任意方向和排列的文本图像进行识别，在中文场景和英文场景的识别任务中都取得了很好的效果。 4. 提出了一种基于多尺度卷积按需共享和特征矫正的端到端场景文字检测与识别方法基于深度学习的文字检测与识别模型参数维度大，在资源受限的设备上应用困难。为此，本文提出了一种基于多尺度卷积特征按需共享和特征矫正的端到端场景文字检测与识别方法。相较于以前的方法，该方法通过多尺度卷积特征按需共享的方式将检测与识别模块联接为一体，解决在共享特征时检测任务和识别任务因所需特征描述不同导致的特征不兼容问题。针对不规则形状文本的识别问题，该方法利用检测特征中的整体性信息学习文本区域中文本的形状变化，用于对识别分支输入的文本区域特征进行矫正，提升模型对不规则形状文本的识别性能。相较于分阶段的检测与识别方法，该方法通过共享特征提取网络和采用特征层的矫正有效降低了模型参数量，提高计算效率。 5. 提出了一种结合语言模型的端到端中文检测与识别方法在中文识别场景中，受图像中汉字分布较为离散、文字横竖排列具有随机性的影响，已有的方法容易产生检测结果与实际语义结果不相符的检测歧义问题。为此，本文提出了结合语言模型处理的端到端文字检测与识别方法。该方法能够检测与识别输入图像中所有可能的横向文本行和纵向文本行，并结合设计的语义筛选模型对识别结果进行语义判断，对有重叠的文本行识别结果进行筛选。与已有的只利用视觉特征的文本检测与识别的方法相比，该文方法可有效结合语义信息消除复杂排版格式导致的文字歧义检测与识别问题。
语种	中文
页码	140
源URL	[http://ir.ia.ac.cn/handle/173211/46631]
专题	自动化研究所_复杂系统管理与控制国家重点实验室_影像分析与机器视觉团队
推荐引用方式 GB/T 7714	杜臣. 基于深度学习的场景文字检测与识别[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2021.

入库方式： OAI收割

来源：自动化研究所

浏览0

下载0

收藏0

其他版本

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。