中国科学院机构知识库网格系统: 基于迁移学习的鲁棒性图像文字识别

中国科学院机构知识库网格

Chinese Academy of Sciences Institutional Repositories Grid

基于迁移学习的鲁棒性图像文字识别

文献类型：学位论文


作者	张亚萍
答辩日期	2010-05-29
文献子类	博士
授予单位	中国科学院大学
授予地点	中国科学院大学
导师	刘文举
关键词	光学字符识别，文字识别，领域自适应，迁移学习
学位专业	模式识别与智能系统
英文摘要	得益于深度学习的发展，图像文字识别技术取得了长足的进步。然而，真实环境中图像文字具有复杂的动态变化性：在手写场景中，不同书写者字体风格迥异；在自然场景中，图像背景复杂多变，这些因素不可避免导致了数据分布的变化，从而引起识别模型在实际应用中的性能退化。该问题的根源在于传统的机器学习方法通常假设训练和测试数据服从相同的分布，无法应对真实环境的动态性所带来的数据分布变化。而迁移学习是一种能够从不同分布的数据中自适应构建学习模型的方法。因此，本文主要研究面向鲁棒性图像文字识别的自适应迁移学习方法，结合图像文字识别领域知识，重点突破迁移学习在图像文字识别领域的应用挑战。论文的主要工作和创新点归纳如下：(1) 针对现有迁移学习方法主要通过特征变换直接进行不同领域特征空间对齐，未能考虑到文字图像先验知识的问题，提出了一种融合先验知识的对抗特征学习方法，自动挖掘不同风格手写体之间共享的印刷体先验知识，指导模型自适应学习书写者无关的领域不变高层特征。在公开数据集上的实验结果表明，该方法取得了最佳性能，并展现了在有限训练数据下对手写风格变化的鲁棒性。(2) 针对基于高层特征空间对齐的迁移学习方法通常未能考虑迁移过程中的语义一致性问题，提出了一种新颖的语义一致的双向对抗无监督领域自适应方法，联合底层像素空间和高层特征空间的知识迁移，可视化迁移过程，保证迁移过程中的语义一致性，进而确保有效知识迁移。在多个公开数据集上的实验结果表明，该方法不仅在无监督的跨域字符识别任务上取得了最佳性能，同时还从定性和定量的角度可视化了迁移过程中的语义一致性。(3) 针对全局特征变换方式忽略了图像文字序列中字符级别的细粒度信息，无法有效进行可变长度的图像文字序列知识迁移的问题，提出了一种序列到序列的局部域适应方法，基于注意力机制自适应进行局部细粒度字符特征迁移，将迁移学习成功应用到序列级别的图像文字识别中，有效实现序列信息的迁移。在多个公开数据集上的实验结果表明，该方法具有很强的扩展性，可以处理到不同场景下的领域偏差问题，在场景文本，手写文本，以及手写数学表达式等具有不同形式领域偏差的数据集下均取得了一致性的性能提升。(4) 针对复杂场景下图像文字序列迁移不充分的问题，尤其是面临不规则图像文字识别，以及领域差异相对较大的跨域迁移任务，引入空间正则变换模块，自适应对空间不规则图像文字进行几何形状的正则化，减少由几何形状仿射变化带来的差异，全面考虑了图像文字的粗粒度全局背景差异以及细粒度局部字符差异，进一步提出了全局粗粒度和局部细粒度的不同粒度联合域适应方法，实现了复杂场景下的序列迁移。实验结果表明，该方法在不同复杂度的图像文字识别迁移任务上，都可以取得更高的性能提升。特别地，在领域差异较大的合成场景文本到手写场景文本的迁移任务上，所提方法可以获得绝对十个百分点的性能提升。
语种	中文
页码	140
源URL	[http://ir.ia.ac.cn/handle/173211/39228]
专题	毕业生_博士学位论文
推荐引用方式 GB/T 7714	张亚萍. 基于迁移学习的鲁棒性图像文字识别[D]. 中国科学院大学. 中国科学院大学. 2010.

入库方式： OAI收割

来源：自动化研究所

浏览0

下载0

收藏0

其他版本

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。