中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
图像与视频中的文本检测与识别方法研究

文献类型:学位论文

作者冯伟
答辩日期2021-06
文献子类博士
授予单位中国科学院大学
授予地点中国科学院自动化研究所
导师刘成林
关键词文本检测与识别 实例分割 自底向上 自顶向下 语义特征
学位专业模式识别与智能系统
英文摘要

近些年来,随着互联网的广泛使用,大量的自然场景图像和视频通过网络
传播。在这些自然场景图像和视频中,文字往往能够帮助人类对图像和视频进
行理解。因此文本检测和识别也有助于计算机快速有效地对图像和视频进行理
解和分析。相比于扫描图像中的文本,自然场景中的文本在形状、字体、颜色、
图像分辨率、拍照角度、背景复杂度等方面都更具有挑战性。本文研究场景图
象和视频中的文本检测与识别问题,提出了几种有效的方法:首先从研究图像
中常见的四边形文本出发,之后扩展到自然场景中任意形状的文本,最终推广
到由图像序列组成的视频中的文本。论文的主要创新性工作如下:
1. 提出了一种基于循环实例分割的四边形场景文本检测方法。为了解决四
边形文本行中的粘连问题,我们提出了一种基于循环实例分割的四边形文本检
测方法。其中,全卷积网络用于对文本区域和非文本区域进行分类,之后循环
神经网络利用全卷积网络提取的特征在每个时间步同时检测和分割一个文本实
例。由于该方法采用实例分割的思想检测文本行,因此可以有效地解决相邻文
本行的粘连问题。实验结果表明,我们提出的基于循环实例分割的文本检测方
法在两个四边形场景文本数据集上取得了有竞争力的结果。
2. 提出了一种基于自底向上的任意形状场景文本端到端识别方法。该方法
中,文本检测器用一系列旋转正方形来描述文本的形状,通过自底向上聚合多
个旋转正方形得到最终的文本外包框。基于检测到的旋转正方形,我们用一个
新颖的滑动感兴趣区域算子将任意形状文本区域从特征图上提取出来。最后用
基于卷积神经网络的字符分类器和基于联结主义时间分类的解码器对提取到的
特征进行识别。该方法在两个任意形状文本数据集上取得了最佳的性能,并在
四边形文本数据集上取得了有竞争力的结果。
3. 提出了一种融合自底向上和自顶向下的残差双尺度文本端到端识别方法。
该方法中,自底向上的检测器用一系列旋转正方形来描述文本行的形状,自顶
向下的检测器用最小包围旋转矩形表示文本感兴趣区域,最终文本行的外包框
由两个检测器共同决定。此外,我们还提出了一种残差双尺度机制来提升模型
对尺度变化的鲁棒性。其中,两个端到端识别器以不同尺度的特征作为输入,高层次的端到端识别器同时学习低层次端到端识别器的残差。该方法在四个英
文数据集和一个中文数据集都取得了最佳的性能。这些数据集不仅包含常见的
四边形文本,也包含任意形状文本。
4. 提出了一种基于语义特征的视频文本检测方法。本方法用一个字符中心
分割分支来提取语义特征,对字符的类别和位置进行编码,然后用一种表观-语
义-几何描述子来跟踪文本实例,其中的语义特征可以提高对表观变化的鲁棒
性。为了克服字符级标注的不足,我们提出了一种弱监督字符中心检测模块,
该模块只使用词级标注的真实图像来生成字符级标注。该方法在四个视频文本
数据集以及两个中文图像文本数据集上取得了最佳的性能。

语种中文
页码124
源URL[http://ir.ia.ac.cn/handle/173211/45044]  
专题自动化研究所_模式识别国家重点实验室_模式分析与学习团队
推荐引用方式
GB/T 7714
冯伟. 图像与视频中的文本检测与识别方法研究[D]. 中国科学院自动化研究所. 中国科学院大学. 2021.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。