拍照图像文本检测方法与应用
文献类型:学位论文
作者 | 张继元![]() |
答辩日期 | 2020-05-29 |
文献子类 | 硕士 |
授予单位 | 中国科学院大学 |
授予地点 | 中国科学院自动化研究所 |
导师 | 王春恒 |
关键词 | 拍照图像 文本检测 弱监督学习 自训练 轻量级文本检测 |
学位专业 | 模式识别与智能系统 |
英文摘要 | 随着信息技术的发展和移动式设备的普及,拍照图像作为信息传播的载体越来越多的出现在人们的日常生活中。图像中的文本传达了精确的语义信息。能够准确且高效的从图像中自动检测并识别出文本信息将有助于对图像的分析理解,也有助于文本信息更为有效的利用。文本检测技术正是实现这一目标的关键。 为了实现一个高性能的文本检测器,对图像数据进行文本检测框的标注是一个必要的环节。面对源源不断可以收集到的图像数据,数据标注的代价显得过于昂贵,通常需要耗费大量人力物力。数据标注工作的费时费力在很大程度上制约了文本检测模型性能的提升。 本文针对缺少标注数据下的拍照图像文本检测问题进行研究,主要工作和创新点总结归纳如下: (1)本文提出一个基于弱监督学习的文本区域检测定位框架。设计了全卷积结构的网络模型,借助逐点卷积和全局平均池化层,将分类损失引入到网络训练中,仅需数据的类别标签信息完成网络训练。从网络中可以直接获取文本区域的位置响应图,并结合形态学操作得到文本区域掩膜。多个数据集上的实验证明了该文本区域掩膜的准确性以及稳定性。 (2)本文提出了基于弱监督框架的文本检测模型自训练算法。利用弱监督框架得到的文本区域掩膜作为检测框置信度评价标准,实现了无需人工干预的全自动化检测模型的训练。实验证明该方法能够利用大量无标注数据进一步提升检测模型性能。 (3)本文提出了基于深度可分离卷积的轻量级文本检测模型,并通过本文的自训练算法针对票据数据进行模型训练。该模型在智能财务系统中得到了成功的部署和应用,验证了本文方法的有效性和实用性。 |
语种 | 中文 |
页码 | 60 |
源URL | [http://ir.ia.ac.cn/handle/173211/39172] ![]() |
专题 | 自动化研究所_复杂系统管理与控制国家重点实验室_影像分析与机器视觉团队 |
推荐引用方式 GB/T 7714 | 张继元. 拍照图像文本检测方法与应用[D]. 中国科学院自动化研究所. 中国科学院大学. 2020. |
入库方式: OAI收割
来源:自动化研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。