导 师: 陈小荷
授予学位: 硕士
作 者: ;
机构地区: 南京师范大学
摘 要: 随着Web2.0的出现,互联网用户从单纯的信息浏览者成为了信息发布者。尤其在电子商务、社交网络出现之后,互联网用户已经成为了整个互联网最大的信息来源。这些用户产生的数据对于互联网用户、产品生产商、服务提供商甚至是政府的相关部门都有着重要作用。通过分析处理这些数据,可以了解这些互联网用户的行为习惯、当前热点事件等等。但是这么庞大的数据量已经远远超过了人力所能处理的范围,在这种情况下计算机成为了最好的处理工具,因此便诞生了意见挖掘这一自然语言处理任务。意见挖掘任务旨在通过对带有评价信息的文本集合进行分析,从中提炼出意见摘要,以便用户更直观、更全面地了解全局。其中,细粒度的意见挖掘可以更好的分析评价的细节之处,更有利于决策。本文针对细粒度意见挖掘任务的需要,对评价信息抽取和分类问题进行了研究。首先本文根据细粒度意见挖掘研究的需要,基于在线评论语料建立了一个主观评价语料库。本文在主观评价语料库的基础上,对评价信息的种类和特征进行了总结,分析评价信息的词性以及上下文词性的规律,并以此作为评价信息抽取的理论依据。其次,本文提出了基于条件随机场模型并结合词聚类信息为特征的评价信息抽取模型,以此进行评价信息抽取实验。实验结果表明词聚类信息能提高标注模型性能,与采用短句法依赖为特征的基线实验相比平均有近10%的提升。在抽取出评价信息之后,还需要对这些评价信息进行分类处理,将描述相同主题的评价信息归入同一个类中,降低统计时的误差。本文提出了基于种子集和语义相似度计算的评价信息分类方法。实验结果表明相比基线实验可以有6%左右的性能提升。
关 键 词: 意见挖掘 情感分析 评价信息抽取 评价信息分类
分 类 号: [H08]
领 域: [语言文字]