导 师: 肖人岳
授予学位: 硕士
作 者: ;
机构地区: 华南理工大学
摘 要: 随着社交平台和电商平台数量的急剧增加,用户在网络上发表意见、表达情感已经成为一种日常现象,因此海量的非结构化数据也随之产生。利用自然语言处理技术对非结构化文本数据进行分析,并挖掘其中所带有的情感倾向,可以为社会舆情监督、商家售后信息反馈和其他用户的决策提供有力的帮助。因此,文本情感分类研究具有非常重要的社会意义和商业价值。在自然语言处理任务中,对停用词的处理通常是使用人工维护的停用词表,并没有一个明确的停用词表适用于所有的情景。另外,文本情感分类任务可以在不同层面进行,例如:文档级、句子级、词或短语级。本文是在文档级处理情感分类任务,其中以深度学习为基础的层次化注意力网络模型(HAN)在过去几年中取得了较好的分类准确率。但是它本身也存在不足,即基于序列的双向门控循环单元(GRU)对文本结构的依赖非常强,而层次化的注意力网络模型(基于双向GRU)没有考虑文本的结构。因此本文提出了两种改进模型:(一)ID-HAN模型是将HAN模型的底层换为一个强化学习模型,对文档分词后一句话中的词是否保留进行自动学习,从而实现针对实验文本数据和实验目的的停用词自动处理。之后将保留的词汇利用单层长短期记忆网络(LSTM)构建句子向量表达,在接下来要进入的句子序列编码器层加入一个高速连接,使得底层的强化学习模型可以得到充分的训练。与人工去除停用词的LSTM-BiGRU模型和HAN模型相比,ID-HAN模型在实验数据集上有更高的准确率。(二)HS-HAN模型底层也为一个强化学习模型,可以自主的学习到英文句子的内部短语结构并进行调整。该模型通过一个两级的LSTM网络,抽取出带有结构信息的句向量,接下来输入到加入高速连接的句子序列编码层(与ID-HAN模型类似带有高速连接),得到整篇文本带有结构�
关 键 词: 强化学习 长短期记忆网络 层次化 高速连接 注意力机制 情感分类
领 域: []