帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

基于多尺度大感受野深度特征的多方向场景文本定位方法研究

导  师: 高学; 章晋龙

授予学位: 硕士

作  者: ;

机构地区: 华南理工大学

摘  要: 文字作为人类进行思想抽象和表达的重要媒介,本身蕴含着丰富的语义信息。文本定位通过检测图像内文本位置和轮廓,构成了后续文本识别和图像理解的基础。传统方法需要基于文本结构等经验知识提取文本特征,这种方法泛化能力和鲁棒性较差。深度学习将文本定位问题转化为目标检测和图像分割问题,为文本定位问题提供了全新的方法论。相比于传统的方法,深度学习方法有着更强的鲁棒性和更好的性能。本文针对场景文本定位中,对于尺度和面积变化大,和大分辨率文本实例定位效果差的问题,基于全卷积网络模型提出了文本定位网络模型。本文的工作如下:1.针对场景文本中存在文本实例面积悬殊,尺度大小变化大的问题,提出多尺度全卷积网络结构:(1)采用更深的特征融合层,将第2、3卷积层的特征图经过维度变换后进行融合,从而输出更大分辨率的特征图,为文本定位提供更精确的特征张量;(2)针对场景文本面积和尺度变化范围大的现象,借鉴GoogleNetInception模块设计了多尺度卷积结构:提取多尺度卷积特征从而学习更大范围的局部特征,提高检测性能。2.针对大分辨率文本实例的定位准确性不高的问题,提出了更大感受野的空洞卷积文本定位模型:(1)基于多尺度卷积模型,将第六个卷积层卷积核膨胀后实现空洞卷积,并调整第五池化层和相应上采样模块,增大网络的感受野;(2)在(1)的基础上,提出多尺度卷积层结构优化和参数精简方案:1)构建多尺度空洞卷积模块:将5×5的卷积核空洞化,形成膨胀率为2的3×3空洞卷积核,从而精简卷积参数;2)采用不对称通道数的多尺度卷积核,降低1×1和5×5卷积核通道数,加强3 × 3卷积核学习的局部特征,同时简化多卷积层参数。本文基于多方向中文场景文本数据库RCTW17进行实验。通过采用多尺度卷积,定位网络三项指标平均提升23.5%,证明多尺度卷积方案有效;通过在网络深层采用空洞卷积,召回率、准确率和F1-measure获得提升,说明空洞卷积增大网络感受野方案有效;多尺度卷积层结构优化:(1)在多尺度卷积层中采用空洞卷积,定位网络的指标小幅下降,说明网络浅层使用空洞卷积不利于提高定位网络性能。(2)采用不对称通道数的多尺度卷积,网络虽然性能略微下降,但更易于训练。本文的文本定位模型在召回率、准确率、F1-measure上分别达到0.541、0.669,0.598。在相同的数据集上和FTSN、Seglink等先进方法相比,有着更高召回率和F1-measure,这说明本文的方法具有良好的性能。更多还原

关 键 词: 多方向文本定位 全卷积网络 多尺度卷积 空洞卷积

分 类 号: [TP391.41;TP183]

领  域: [] []

相关作者

作者 黄展云
作者 张从毕
作者 李世琼
作者 李外香
作者 欧小波

相关机构对象

机构 暨南大学
机构 华南师范大学
机构 中山大学
机构 华南理工大学
机构 暨南大学新闻与传播学院

相关领域作者