帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

随机森林算法对文本情感分析的应用与R软件实现

中文会议: 2017年中国卫生统计学学术年会论文集

会议日期: 2017-08-22

会议地点: 中国湖北武汉

主办单位: 中国卫生信息学会卫生统计学教育专业委员会;中国卫生信息学会统计理论与方法专业委员会;中华预防医学会生物统计分会;国际生物统计学会中国分会

出版日期: 2017-08-31

作  者: ();

机构地区: 中山大学公共卫生学院医学统计与流行病学系

出  处: 《2017年中国卫生统计学学术年会》

摘  要: 目的文本数据与日俱增。本文旨在阐述如何通过随机森林算法和R软件实现文本情感分析,为学者提供方法学参考。方法人工标注1200例文本情感类别,然后用'RWordseg'包对文本进行中文分词,用词频-逆向文件频率量化特征词权重。用卡方法进行特征词选择。按照不同参数组合,用'randonForest'包对数据进行建模,并用准确率、查准率、查全率和F1得分来评估模型性能,用统计量FF比较模型优劣。结果 1149条文本纳入分析,正向、负向和中立情感各占34.3%、31.3%和34.4%。共构建18个模型,其中模型16最优。特征选择后的模型2的运行时间(5秒)远少于模型5(535秒)。最优模型有190个特征词,mtry=13,ntree=2500,准确率0.60,95%置信区间(0.53,0.68)。中立情感的查全率相对较高(0.79),正向情感的查准率相对较高(0.66)。影响准确率的主要原因有样本量大小、特征词选择、算法选择和参数调整。R软件能实现情感分析。

领  域: []

相关作者

作者 刘昕玥
作者 蒲晓彬
作者 李银芳
作者 吴艺能
作者 金莹

相关机构对象

机构 华南理工大学
机构 暨南大学
机构 暨南大学管理学院企业管理系
机构 佛山科学技术学院体育学院
机构 广州民航职业技术学院

相关领域作者