帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

基于强化学习的层次化注意力网络模型及文本情感分类研究

导  师: 肖人岳

授予学位: 硕士

作  者: ;

机构地区: 华南理工大学

摘  要: 随着社交平台和电商平台数量的急剧增加,用户在网络上发表意见、表达情感已经成为一种日常现象,因此海量的非结构化数据也随之产生。利用自然语言处理技术对非结构化文本数据进行分析,并挖掘其中所带有的情感倾向,可以为社会舆情监督、商家售后信息反馈和其他用户的决策提供有力的帮助。因此,文本情感分类研究具有非常重要的社会意义和商业价值。在自然语言处理任务中,对停用词的处理通常是使用人工维护的停用词表,并没有一个明确的停用词表适用于所有的情景。另外,文本情感分类任务可以在不同层面进行,例如:文档级、句子级、词或短语级。本文是在文档级处理情感分类任务,其中以深度学习为基础的层次化注意力网络模型(HAN)在过去几年中取得了较好的分类准确率。但是它本身也存在不足,即基于序列的双向门控循环单元(GRU)对文本结构的依赖非常强,而层次化的注意力网络模型(基于双向GRU)没有考虑文本的结构。因此本文提出了两种改进模型:(一)ID-HAN模型是将HAN模型的底层换为一个强化学习模型,对文档分词后一句话中的词是否保留进行自动学习,从而实现针对实验文本数据和实验目的的停用词自动处理。之后将保留的词汇利用单层长短期记忆网络(LSTM)构建句子向量表达,在接下来要进入的句子序列编码器层加入一个高速连接,使得底层的强化学习模型可以得到充分的训练。与人工去除停用词的LSTM-BiGRU模型和HAN模型相比,ID-HAN模型在实验数据集上有更高的准确率。(二)HS-HAN模型底层也为一个强化学习模型,可以自主的学习到英文句子的内部短语结构并进行调整。该模型通过一个两级的LSTM网络,抽取出带有结构信息的句向量,接下来输入到加入高速连接的句子序列编码层(与ID-HAN模型类似带有高速连接),得到整篇文本带有结构�

关 键 词: 强化学习 长短期记忆网络 层次化 高速连接 注意力机制 情感分类

领  域: []

相关作者

作者 杨佳能
作者 刘昕玥
作者 蒲晓彬
作者 吕君杰
作者 李蓬实

相关机构对象

机构 广东外语外贸大学
机构 中山大学
机构 佛山科学技术学院
机构 华南理工大学
机构 广东工业大学

相关领域作者