拍照文本图像识别方法研究与应用
文献类型:学位论文
作者 | 赵晋媛![]() |
答辩日期 | 2021-05-29 |
文献子类 | 博士 |
授予单位 | 中国科学院大学 |
授予地点 | 中国科学院自动化研究所 |
导师 | 肖柏华 |
关键词 | 拍照文本图像识别 文本图像二值化 文本检测 文本识别 智能财务 |
学位名称 | 工学博士 |
学位专业 | 模式识别与智能系统 |
英文摘要 | 随着计算机技术的飞速发展和拍照智能终端的广泛应用,以图片为载体的多媒体资源由于其获取便捷,信息量大,生动形象,表现力强的特点,成为人们获取信息的重要来源。如何对这些图像中的文本信息进行提取和识别,实现从文本图像到文本数据的转化,得到了国内外研究者的广泛关注。 本文选择拍照获得的文本图像作为研究对象,借鉴图像处理、语义分割、目标检测等领域的最新进展,对文本识别任务中图像预处理、文本检测和文本识别三个环节进行了具体研究。以此为基础,将本文提出的方法应用于票据智能录入系统中,在实际应用中验证了各方法的有效性。本文的主要贡献和创新点包括以下内容: 1. 提出了一种基于级联条件生成对抗网络的文本图像二值化方法 针对拍照文本图像二值化任务,本文提出将传统方法中通过邻域内像素信息计算阈值的二值化方法转化为图像生成任务,利用生成对抗网络直接生成二值化结果图像,以减少计算量并提高算法的灵活性。同时,为了解决图像中文本分布不均匀的问题,本文提出了两级图像生成器级联的结构,训练两个生成器分别对文字笔画细节的提取与不同尺度二值化结果图像的融合方法进行学习,一定程度上解决了二值化任务中邻域大小选择的难题。在多个公开数据集上的实验结果表明了该方法的有效性。 2. 提出了一种基于软文本表示与多尺度位置回归的文本检测方法 传统基于语义分割思想的文本检测方法受到文本行标注框中背景像素的干扰较大,且难以处理相邻文本行之间的粘连问题。针对上述问题,本文提出了一种基于软文本表示与多尺度位置回归的文本检测方法。该方法设计加权文本表示方法弱化标注框边缘的背景像素在训练过程中的权重,并引入鉴别网络对分割结果与标注图像的相似度进行度量,改善语义分割损失只计算像素级准确率而缺乏上下文信息整合的情况。同时,提出采用多个尺度的文本概率得分图计算最终文本位置,避免相邻文本行之间的粘连。实验结果表明本方法取得了较好的文本/非文本区域分类效果和整体的文本检测性能。 3. 提出了一种基于对抗学习策略的不规则文本识别方法 针对拍照图像中不规则文本的识别难题,本文提出了一种基于对抗学习策略的弱监督文本识别方法。在现有矫正加识别的框架基础上,采用对抗学习策略对矫正和识别模块进行联合训练。相较于传统方法所采用的串联学习机制,本方法直接将损失同步传入矫正和识别模块,使训练更容易收敛,并在对抗学习中同步提高矫正效果和识别性能。同时,本方法应用可以从水平、竖直两个方向对输入图像进行像素级偏移的矫正模块,加强矫正自由度,提升对不规则文本的识别准确率。在多个数据集上的综合实验结果表明,本方法在拍照文本图像识别任务上取得了良好的性能。 4. 应用验证:智能云财务共享服务平台(Intelligent Finance Shared Service Platform, I-FSSP) 本文将上述方法应用到智能云财务共享服务平台的票据智能录入环节。通过票据智能录入系统对上传的拍照票据进行结构化识别,能够在一定程度上提升财务票据录入的效率,并为后续财务数据的查询和整理工作提供更加全面的财务基础数据。实际应用以及上线反响表明,本文提出的拍照文本识别方法在现实场景中的应用是可行且有效的。 |
语种 | 中文 |
页码 | 126 |
源URL | [http://ir.ia.ac.cn/handle/173211/44928] ![]() |
专题 | 自动化研究所_复杂系统管理与控制国家重点实验室_影像分析与机器视觉团队 |
推荐引用方式 GB/T 7714 | 赵晋媛. 拍照文本图像识别方法研究与应用[D]. 中国科学院自动化研究所. 中国科学院大学. 2021. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。