帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

商品在线评价的有用性研究——基于剔除虚假评价的数据挖掘方法

导  师: 柳向东

授予学位: 硕士

作  者: ();

机构地区: 暨南大学

摘  要: 本文从消费者和商品评价两个个方面着手,运用beautiful soup爬虫工具爬取亚马逊网站商品三体1的所有评价及其每个评论者的所有评价。本文共爬取到1474个用户、20853个评价,以及每个用户的所有评价。之后采用jieba分词工具和哈工大停用词词典对爬取的数据进行文本处理,对处理过的数据采用LSI模型计算文本相似度,结果显示效果良好,通过计算评论者每个评价文档与该评论者总评价文档的相似度的平均值,辅以同一天的最大评论数量来判断该用户是否为水军。在剔除水军评价后,我们对剩下的三体1的所有评价进行建模,本文采取机器学习中的线性回归、逻辑回归与多种分类器方法,通过对比,随机森林回归模型和线性回归模型的均方根误差更低,效果更优,但线性回归模型在测试集中的表现不如随机森林模型,因此本文最终选用随机森林模型对商品评价进行分类排序,结果显示模型效果良好,排在前列的商品评价,其内容较长,同时提供其他商品评价未提及或少量提及的信息,而排在后列的商品评价,其内容较短,也有少量较长的评价,它们所提供的信息大部分已经被其它评价提及过,所以对用户的有用性很低,符合我们的预期。

关 键 词: 商品评价 水军评价 模型 线性回归 随机森林

领  域: [] []

相关作者

作者 张鸿梅

相关机构对象

机构 广东培正学院

相关领域作者