帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

基于深度学习的中文分词方法研究

导  师: 史景伦

授予学位: 硕士

作  者: ;

机构地区: 华南理工大学

摘  要: 近年来,随着文本信息的不断增多,人们迫切需要自然语言处理技术来挖掘和利用海量文本数据。中文分词是自然语言处理一项重要的基础任务。大多数的上层的任务都要先进行分词的步骤,并且分词方法的质量对相关任务将会造成很大影响。中文分词任务因为存在歧义和未登录词等问题,使得中文分词的准确性受到了限制。基于词典匹配和传统统计技术的研究方法还存在很多局限性。随着深度学习方法在各个领域的成功,针对中文分词采用深度学习的研究方法是一种趋势。中文分词有分为字符和词语为单位的研究方法,由于字标注法能有效改善未登录词的影响,本文模型都是基于字标注法进行研究。本文采用深度学习对中文分词方法的研究主要有两个创新点:第一点是在中文分词模型BiLSTM+CRF上提出了改进方案。先是引进了三种有效的字特征,分别是上下文特征、字形特征和拼音特征。上下文特征采用带有GLU单元的卷积神经网络进行提取,还针对模型提出了两种不同的卷积方式进行了比较。字形特征和拼音特征均采用前馈神经网络对汉字对应的五笔编码和拼音编码进行特征提取。针对三种特征的结合方式,本文提出了基于注意力机制的特征组合方法,取得了不错的效果。之后,在RNN网络中用GRU单元代替LSTM单元,有效提高模型的训练速度。第二点是提出了一种基于seq2seq模型的中文分词方法。先是根据中文分词序列等长的特点,提出了基础的seq2seq模型。之后分别采用全局注意力机制和局部注意力机制对基础的seq2seq模型进行改进,并提出了特殊的模型变种。其中实验证明基于局部注意力机制的seq2seq模型在中文分词任务中要优于全局注意力机制。本文也试验了几种得分函数对全局注意力模型的影响,并验证了无需解码器反馈的得分函数同样有效。另外,�

关 键 词: 中文分词 深度学习 字特征 注意力机制

领  域: [] []

相关作者

作者 余栋柱
作者 崔蓉
作者 刘庆明
作者 胡艳胜

相关机构对象

机构 中山大学
机构 华南理工大学软件学院
机构 华南理工大学经济与贸易学院电子商务系
机构 华南师范大学经济与管理学院

相关领域作者