中文会议: 中国社会科学情报学会2012年学术年会论文集
会议日期: 2012-09-01
会议地点: 合肥
主办单位: 中国社会科学情报学会
出版方 : 中国社会科学情报学会
出版日期: 2012-09-01
机构地区: 广东省社会科学院
摘 要: 为克服传统词频—逆向文本频率(TFIDF)关键词提取精度低下的缺点,提出一种基于多级统计特征的关键词提取(TFIDF-SK)算法.该算法采用词语TfDf指标的离散系数公式来剔除噪音词,接着构建基于词偏度、词语位置权重信息和词频—逆向文本频率的评估函数来度量关键词的重要性.实验结果表明该算法优于传统方法,在网络情报监测中具有广泛的应用价值.