导 师: 任江涛
授予学位: 硕士
作 者: ();
机构地区: 中山大学
摘 要: 文本分类一直是自然语言处理中的基础、热点和难点。主题模型LDA作为无监督的概率统计模型在文本语义挖掘上取得良好的效果,而它的拓展标签主题模型Labeled-LDA基于标签这个强而有力的监督信息,使得词的主题分布更加准确可控。深度学习在近几年得到前所未有的发展,神经网络在各个领域大展身手。图像的像素矩阵形式以及自身固有的空间结构特点,与卷积神经网络完美结合,在人脸识别等图像领域取得比人类识别还要好的效果,而随着word2vec在自然语言处理的大热,文本固有的序列特点与递归神经网络完美结合,在文本分类、智能对话、机器翻译等领域取得长足的进步。相同情况下,在短文本分类上递归神经网络要比卷积神经网络的分类效果更好,原因之一递归神经网络基于序列建模,更吻合文本自身固有的序列特点。然而在长文本分类上,递归神经网络由于梯度弥散而造成无法收敛,存在记忆长度不够的缺陷,即使LSTM对长文本分类问题也是力不从心。文本既有空间结构特点,相近的文本主题相似,又有序列结构特点。为了使递归神经网络序列建模的优势在文本分类问题上得以保持,以及结合卷积神经网络对于空间结构建模的优势,本文应用的是卷积递归神经网络CNNNN。对于超长文本,本文应用的是多卷积层递归神经网络MCNNNN。实验结果表明,Labeled-LDA具有很好的文本聚类功能,能做特征选择,能很好地学出词的类别分布,本文引入词的类别分布信息,提出一种卷积递归神经网络CNNNNLDA,对于超长文本,本文提出一种卷积递归神经网络MCNNNNLDA。在具有丰富样本的数据集上,前人应用非常深层的卷积网络取得很好的效果,近两年大热的注意力模型在自然语言处理上也硕果颇丰,鉴于此,本文提出了深度残差双向注意力网络RESATTLDA。实验结果表明引入词的类别分布信
领 域: []