帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

知识增益:文本分类中一种新的特征选择方法

中文会议: 第三届全国信息检索与内容安全学术会议论文集

会议日期: 2007-11-01

会议地点: 苏州

主办单位: 中国中文信息学会

作  者: ; ; ; ;

机构地区: 中国科学院计算技术研究所

出  处: 《第三届全国信息检索与内容安全学术会议》

摘  要: 特征选择在文本分类中起重要的作用。文档频率(DF)、信息增益(IG)和互信息(MI)等特征选择方法在文本分类中广泛应用。已有的实验结果表明,IG是最有效的特征选择算法之一,该方法基于申农提出的信息论。本文基于粗糙集理论,提出了一种新的特征选择方法(KG算法),该方法依据粗糙集理论关于知识的观点,即知识是分类事物的能力,将知识进行量化,提出知识增益的概念,得到基于知识增益的特征选择方法。在两个通用的语料集OHSUMED和NewsGroup上进行分类实验发现:KG算法均超过IG的性能,特别是在特征空间的维数降到低维时尤其明显,可见KG算法有较好的性能。

关 键 词: 文本分类 特征选择 粗糙集 信息检索

分 类 号: [TP]

领  域: [自动化与计算机技术]

相关作者

作者 李利梅
作者 周凌燕
作者 肖可
作者 朱成
作者 曹雨婷

相关机构对象

机构 中山大学资讯管理学院
机构 中山大学
机构 中山大学资讯管理学院信息管理系
机构 华南师范大学经济与管理学院
机构 中山大学资讯管理学院资讯管理系

相关领域作者

作者 李文姬
作者 邵慧君
作者 杜松华
作者 周国林
作者 邢弘昊