中国科学院机构知识库网格系统: 拍照票据图像识别方法与系统

中国科学院机构知识库网格

Chinese Academy of Sciences Institutional Repositories Grid

拍照票据图像识别方法与系统

文献类型：学位论文


作者	王淼
答辩日期	2019-05-31
文献子类	硕士
授予单位	中国科学院大学
授予地点	中国科学院自动化研究所
导师	王春恒
关键词	图像质量评估文字检测文字识别卷积神经网络
学位专业	计算机技术
英文摘要	随着计算机软、硬件技术的发展及智能手机的广泛应用，以数字图像和视频为载体的多媒体信息正迅速成为信息交流的主流方式之一。图像中的文字能表达高层语义信息，因此对图像中的文字进行自动检测和识别的需求与日俱增。随着手机等移动终端的广泛应用，拍照图像逐渐占据重要的地位。票据是生活中常见的一种文档图像，拍照票据图像的自动识别具有强大的优势，可以节省大量的人力资源。但票据种类繁多、版面复杂、关键信息不尽相同，票据纸张易弯曲变形、文字打印质量参差不齐，以及拍照造成的图像模糊、阴影、反光等问题，都使得拍照票据图像中的文字识别变得困难。本文针对拍照票据图像中的文字检测与识别的问题展开了一系列的研究，本文的主要内容如下：（1）设计和实现了一种基于局部梯度分布的拍照票据图像序列质量评估算法。该算法能够在多张连拍序列图像中选取质量最好的一张，并对该张图像的质量进行判断，对于拍照质量很差、没有识别意义的图像将不会进行后续识别。实验证明该方法能有效解决手机拍照取像的选择问题。（2）针对票据种类繁多的问题，设计和实现了一种新票种注册和分类的方法。该方法采用CNN提取特征、GLVQ学习模板、KNN进行分类的思路，不仅能够对一些常用票据图像进行分类，而且仅需要少量新票种样本，即可快速支持新票种的分类。（3）在通用目标检测中Focal Loss的基础上，提出了基于Focal Loss的票据文字检测方法，实验结果证明了该方法能够有效地检测任意方向的文字。（4）提出了一种自适应的端到端文本行识别的模型。该方法通过加入可形变卷积，增加感受野的范围，使网络能够自适应地学习一种隐式分割的方法。实验证明该方法有效地提升了识别准确率。（5）产品化：针对财务、金融领域中大量新增或遗留的票据需要人工录入的问题，本文搭建了智能云财务共享服务平台，实现了拍照票据图像的结构化识别。本文所设计的算法是该系统的核心部分，该系统的上线和良好运行验证了本文算法的有效性和实用性。
语种	中文
页码	65
源URL	[http://ir.ia.ac.cn/handle/173211/23841]
专题	自动化研究所_复杂系统管理与控制国家重点实验室_影像分析与机器视觉团队
推荐引用方式 GB/T 7714	王淼. 拍照票据图像识别方法与系统[D]. 中国科学院自动化研究所. 中国科学院大学. 2019.

入库方式： OAI收割

来源：自动化研究所

浏览0

下载0

收藏0

其他版本

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。