帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

双重选词和启发式约简的粗糙集文本分类
Text Categorization with Rough Set Based on Extracting Double Features and Heuristic Algorithm Reduction

作  者: ; ;

机构地区: 华南师范大学增城学院经济学系

出  处: 《微计算机信息》 2009年第30期167-168,166,共3页

摘  要: 本文研究使用粗糙集对文本分类的方法,提出一种双重特征选取的特征项选取方法,该方法将加权后的TF-IDF和CHI两种方法相结合,取它们的交集,这样可以过滤掉一些代表性较弱的特征词。另外本文对基于区分矩阵核的启发式约简算法做了改进,加入了一个代表性强的特征词集,以保证重要的特征词不被约简掉。实验表明使用双重特征选取和改进后的启发式约简所得的分类效果良好。 This thesis researches on the method of categorizing texts base on rough set. A double feature selection method to select tbe features was proposed. This method unify the weight added TF-IDF and CHI methods to extract the features. Taking the intersection of the two methods as the final result. Using this method can filter out some weakly representative features. The heuristic algorithm reduction base on the core of the discrimination matrix was improved that a strong representative feature set was added, in order to avoid some importanter representative features be reducted.The experimental results indicate that the double feature selection method and improved attribute reduction algorithm were used in text categorization can receive a better result.

关 键 词: 文本分类 粗糙集 双重特征提取 特征词集

领  域: [自动化与计算机技术] [自动化与计算机技术] [自动化与计算机技术] [自动化与计算机技术]

相关作者

作者 李利梅
作者 周凌燕
作者 肖可
作者 朱成
作者 曹雨婷

相关机构对象

机构 华南理工大学
机构 广东外语外贸大学
机构 华南理工大学经济与贸易学院
机构 暨南大学
机构 深圳大学

相关领域作者

作者 李文姬
作者 邵慧君
作者 杜松华
作者 周国林
作者 邢弘昊