中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
拍照图像文本识别方法与应用

文献类型:学位论文

作者冯子朋
答辩日期2020-05
文献子类硕士
授予单位中国科学院大学
授予地点中科院自动化研究所
导师肖柏华
关键词拍照文本识别 中心线校正 空间注意力 端到端识别 票据识别系统
学位名称工学硕士
学位专业模式识别与智能系统
英文摘要

随着计算机视觉的发展和智能终端的快速普及,拍照图像文本识别技术已经得到日益广泛的应用。纸质发票作为财务系统的重要组成部分,长期以来其手工录入耗费了大量的人力物力。开发一套拍照票据识别系统,将有效降低票据录入成本。但与扫描图像相比,拍照图像常常受任意拍摄角度和纸张褶皱的影响,使图像中文本发生倾斜、透视、弯曲等畸变,增加了文本识别的难度。本文针对拍照图像中的不规则文本识别问题进行研究,主要工作和创新点归纳如下:
(1)针对不规则文本行难以识别的问题,本文提出了基于中心线校正的文本识别模型。中心线校正模块基于空间变换网络,通过预测文本中心线上的采样点,自适应地将其映射为水平排列的文本。校正模块完全由序列识别模块反向传递的梯度进行训练,无需额外的监督信息。在多个数据集上的识别指标和可视化结果证明了该模块的有效性。
(2)针对序列识别模型损失图像空间信息的问题,本文提出了基于空间注意力的文本识别模型。设计了注意力时序网格和二维解码器,直接对二维的图像特征进行注意力加权和语义编解码。为保证注意力在时序上严格对齐,提出了先验机制对空间注意力进行监督。实验证明,该方法同时保持了不规则文本的空间信息和语义信息,在多个数据集上取得了当前最优的识别效果。
(3)针对不规则文本检测和识别两阶段衔接不充分的问题,本文提出了检测识别一体化的端到端文本识别模型。为充分利用检测分支生成的任意形状文本掩膜,提出了可将掩膜进行仿射变换的特征映射层。检测和识别分支通过特征映射层连接,可实现端到端协同训练。实验证明,该模型可精简识别流程,缩减模型尺寸,并有效提升端到端的识别性能。
(4)针对财务系统中大量票据需要人工录入的问题,本文以所提出的文本识别算法为核心,搭建了拍照票据识别系统,完成了包含票据采集、文本检测识别、结构化输出等环节的整套流程。开发了对应的客户端与服务端,保障了该系统的平稳高效运行。该系统的上线和成功推广证明了本文算法的有效性和实用性。

语种中文
页码88
源URL[http://ir.ia.ac.cn/handle/173211/39245]  
专题自动化研究所_复杂系统管理与控制国家重点实验室_影像分析与机器视觉团队
推荐引用方式
GB/T 7714
冯子朋. 拍照图像文本识别方法与应用[D]. 中科院自动化研究所. 中国科学院大学. 2020.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。