导 师: 高学
授予学位: 硕士
作 者: ();
机构地区: 华南理工大学
摘 要: 图片能带给人们丰富的信息,而文字作为人类智慧的结晶,其所包含的信息量往往要比色彩纹理等携带的信息量大得多,因此对场景图像中文字的识别和理解显得十分有必要和重要。由于场景文本图像的复杂性,传统OCR文字识别不再适应这种新的挑战。人工智能及计算机科学技术的新突破,使得基于深度学习算法理论的场景文本识别方法较传统OCR技术有了较大的提升,但离实际的运用还有不小的差距。因此,本文进行基于深度学习的场景文本识别方法研究具有重要的理论研究意义及广泛的应用前景。本文旨在研究自然场景下中文文本图像的文本识别方法,提出一种基于卷积神经网络及递归神经网络的端到端场景文本识别模型与方法。与传统文本识别方法相比,该模型与方法具有更好的特征学习和特征分类能力。本文完成的主要工作包括:1、提出了一种基于可变形卷积网络的场景文本图像特征提取模型。该模型利用可变形卷积神经网络实现了文本图像特征的自动提取,与其他模型相比具有更好的特征学习能力,对复杂场景文本图像的识别具有更好的鲁棒性,尤其表现在文本图像中字体存在几何变形变换时,鲁棒性更好。利用本文提出的特征提取模型,能较好地提取场景文本图像中的特征,可以有效改善文本识别的性能。2、提出了一种改进的Encoder-Decoder框架中的注意力机制计算模型。标准注意力机制通常采用全局注意力的方式进行解码,并且当前时刻的输入为全部输入信息的加权和。改进后的注意力机制采用了局部注意力的方式,且当前时刻的输入为局部输入信息的加权卷积平均,即先对局部输入信息求解权重因子,各局部输入信息依据权重因子进行加权后,进行卷积操作产生多个新的输入信息,最后将多个新输入信息的平均值作为当前时刻的输入。实验结�
领 域: []