帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

基于深度学习的文本检测识别算法研究及应用

导  师: 蔡念; 王国田

授予学位: 硕士

作  者: ();

机构地区: 广东工业大学

摘  要: 文本检测和文本识别作为计算机视觉领域中的热点研究问题备受关注,这两个领域在工作和生活中都有着广泛的应用,如证件中信息的识别、文档中文字的识别、车牌号识别和工业生产自动化技术等。这两个领域相辅相成,构成一个完整的光学字符识别(Optical Character Recognition,OCR)系统。其中,文本检测部分是文本识别部分的前提和基础,用来从一张大图中找到文本行所在位置,文字识别部分用来对找到的文本行进行识别,输出系统的最后结果,二者共同决定了一个OCR系统的最终性能。在过去,文本检测和文本识别算法基本都是基于人工设计的特征和传统的图像处理方法完成的,这类特征和算法设计困难,需要大量的专业知识和经验支撑,因此精度不高,不具有泛化性。近年来,深度学习技术快速发展,在图像分类、目标检测、语义分割等计算机视觉领域取得了突破性的进展和成果。深度学习类算法是数据驱动型算法,基于深度学习的算法通过迭代训练,自动发现和学习到大量数据中隐含的特征规律,无需过多的人为干预,因此相较于传统的图像处理相关算法具有更好的泛化性。本论文针对雷管编码字符的检测与识别这一具体的工程问题,对基于深度学习的文本检测和文本识别算法这两大领域展开研究,旨在高效准确地解决这一工程问题。本文的主要工作包括:(1)针对雷管数据的采集和处理,本文设计了雷管数据采集系统和数据自动标注工具。数据采集系统高效、安全地采集雷管图像数据,自动标注工具可大大提升训练数据准备的工作效率。(2)针对文本检测问题,本文提出了一个基于多全卷积网络融合的雷管编码字符检测网络MFCNNet,引入了注意力机制、进行多网络信息融合,设计了相应的损失函数的设计。MFCNNet中注意力机制的引入有效地抑制了背景噪声对网络的干扰;多网络信息的融合使得多个子网络彼此补充、相互促进;设计的损失函数有效地抑制了文本区域周围不必要的噪声响应。实验证明,这几点改进均有效地提升了所提出网络结构的准确度,最终MFCNNet的检测精确度和识别准确率分别达到了99.835%和98.026%,达到目前最先进的水平。(3)针对文本识别问题,本文提出了一种基于翻转不变性卷积核的雷管编码字符识别网络FICNN。FICNN融入了翻转不变性卷积核的网络,有效地提升了网络对翻转图像的处理能力,是对雷管字符编码图像可能出现四种翻转方向这一现象的针对性的解决方案。实验表明,FICNN在处理翻转雷管文本识别问题上分别较经典方法在准确率上提升了5.24%和1.09%,达到了最好的效果,证明了其有效性。更多还原

关 键 词: 文本检测与识别 深度学习 雷管编码字符 全卷积网络 翻转不变性卷积核

分 类 号: [TP391.41;TP18]

领  域: [] []

相关作者

作者 牛翠波
作者 张梦华
作者 郭丽萍
作者 王晓龙
作者 陈剑光

相关机构对象

机构 中山大学
机构 广东外语外贸大学
机构 暨南大学
机构 中山大学人文科学学院哲学系
机构 华南师范大学

相关领域作者