中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
脱机手写文本行识别算法研究

文献类型:学位论文

作者于明明
答辩日期2022-06
文献子类硕士
关键词手写中文文本行识别 连接时序分类算法 弱监督字符定位 卷积原型网络
英文摘要

随着深度学习技术的发展,文本识别领域取得了很大的进展。端到端弱监督
文本行识别算法由于只需文本转录标记数据进行弱监督学习,目前已经成为主
流。但这类方法难以准确定位字符位置,也存在可解释性不足和小样本泛化能力
不足的问题。因此,本文从滑动窗和单字分类的角度研究文本行识别方法,希望
实现弱监督学习并保持良好的可解释性和泛化性。
本文的主要研究成果如下:
1. 提出一种基于原型分类器的端到端文本行识别方法。本文采用基于滑动
窗分类的文本行识别框架,用原型分类器作为字符分类器,在文本行特征平面上
进行滑动分类,相比图像上滑动提升了计算效率。在文本行样本数据的弱监督训
练中,通过伪标签筛选提升了训练的收敛性。在手写数字和手写中文数据集上的
实验中,本方法取得了具有竞争力的结果,并在小数据集的迁移学习中显示出优
势。
2. 提出一种统一显示切分和隐式切分的弱监督文本行识别方法。该方法结
合了显式切分和隐式切分的优点,可以在文本行样本数据上弱监督训练,在识别
的同时给出字符的位置信息。本文合成带字符位置标记的文本行数据辅助弱标注
真实文本行图像进行训练,可以克服连接时序分类模型(Connectionist Temporal
Classification,CTC)的对齐漂移问题;同时,通过引入回归分支预测字符边界,
实现字符精准定位。在中文手写文本识别实验中,本方法取得了优异的性能。

学科主题信息科学与系统科学 ; 信息科学与系统科学其他学科
语种中文
页码82
源URL[http://ir.ia.ac.cn/handle/173211/52233]  
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
于明明. 脱机手写文本行识别算法研究[D]. 2022.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。