帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

权重润饰和改进的分类对不平衡数据的处理
CLASSIFYING IMBALANCED DATA WITH WEIGHT-RETOUCHING AND IMPROVED CLASSIFICATION

作  者: ;

机构地区: 华南理工大学经济与贸易学院电子商务系

出  处: 《计算机应用与软件》 2009年第8期144-146,161,共4页

摘  要: 不平衡数据集是指某类样本数量明显少于其它类样本数量的数据集,传统的分类算法在处理不平衡数据分类问题时会倾向于多数类,而导致少数类的分类精度较低。针对文本数据的不平衡情况,首先采用权重润饰(Weight-retouching)的方法进行特征提取,然后采用欠取样(Under sampling)的支持向量机SVM(Support Vector Machine)方法进行文本分类。通过实验发现,使用权重润饰和欠取样的SVM方法可以提高处理不平衡数据的分类精度。 Imbalanced data set is that the number of a certain class samples is noticeably fewer than the number of other class samplesIt causes the deduction of classification precision in minority class samples,when imbalanced data set is classified by the traditional algorithm, which tends to favour the majority class samplesln this paper,we paid attention to the imbalance situation of the text data and used weight-re- touching method to make the characteristic extraction followed by using under sampling SVM method to classify the textIt is shown through the experiments that these two data processing techniques can improve the classification precision of the imbalanced data set.

关 键 词: 文本分类 机器学习 权重润饰 欠取样

领  域: [自动化与计算机技术] [自动化与计算机技术] [农业科学]

相关作者

作者 李利梅
作者 周凌燕
作者 肖可
作者 朱成
作者 曹雨婷

相关机构对象

机构 广东外语外贸大学
机构 中山大学
机构 广东外语外贸大学社会科学系
机构 暨南大学
机构 暨南大学华文学院

相关领域作者

作者 俞守华
作者 李文姬
作者 邵慧君
作者 杜松华
作者 王和勇