帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

一种基于深度学习与Labeled-LDA的文本分类方法

导  师: 任江涛

授予学位: 硕士

作  者: ();

机构地区: 中山大学

摘  要: 文本分类一直是自然语言处理中的基础、热点和难点。主题模型LDA作为无监督的概率统计模型在文本语义挖掘上取得良好的效果,而它的拓展标签主题模型Labeled-LDA基于标签这个强而有力的监督信息,使得词的主题分布更加准确可控。深度学习在近几年得到前所未有的发展,神经网络在各个领域大展身手。图像的像素矩阵形式以及自身固有的空间结构特点,与卷积神经网络完美结合,在人脸识别等图像领域取得比人类识别还要好的效果,而随着word2vec在自然语言处理的大热,文本固有的序列特点与递归神经网络完美结合,在文本分类、智能对话、机器翻译等领域取得长足的进步。相同情况下,在短文本分类上递归神经网络要比卷积神经网络的分类效果更好,原因之一递归神经网络基于序列建模,更吻合文本自身固有的序列特点。然而在长文本分类上,递归神经网络由于梯度弥散而造成无法收敛,存在记忆长度不够的缺陷,即使LSTM对长文本分类问题也是力不从心。文本既有空间结构特点,相近的文本主题相似,又有序列结构特点。为了使递归神经网络序列建模的优势在文本分类问题上得以保持,以及结合卷积神经网络对于空间结构建模的优势,本文应用的是卷积递归神经网络CNNNN。对于超长文本,本文应用的是多卷积层递归神经网络MCNNNN。实验结果表明,Labeled-LDA具有很好的文本聚类功能,能做特征选择,能很好地学出词的类别分布,本文引入词的类别分布信息,提出一种卷积递归神经网络CNNNNLDA,对于超长文本,本文提出一种卷积递归神经网络MCNNNNLDA。在具有丰富样本的数据集上,前人应用非常深层的卷积网络取得很好的效果,近两年大热的注意力模型在自然语言处理上也硕果颇丰,鉴于此,本文提出了深度残差双向注意力网络RESATTLDA。实验结果表明引入词的类别分布信

关 键 词: 文本分类 深度残差网络 注意力模型

领  域: []

相关作者

作者 谭建平
作者 何海霞
作者 李利梅
作者 周凌燕
作者 肖可

相关机构对象

机构 暨南大学
机构 中山大学
机构 华南师范大学
机构 华南理工大学
机构 暨南大学新闻与传播学院

相关领域作者