文献详情 - Gdtheory理论粤军网|广东智库信息化平台

全部文献媒体文章报刊论文会议论文学位论文出版专著研究报告课题成果特色专题

高级检索

您现在所在的位置：网站首页 > 知识中心 > 文献详情

文献详细_{Journal detailed}

权重润饰和改进的分类对不平衡数据的处理
CLASSIFYING IMBALANCED DATA WITH WEIGHT-RETOUCHING AND IMPROVED CLASSIFICATION

下载全文在线阅读

收藏

作　　者： ;

机构地区： 华南理工大学经济与贸易学院电子商务系

出　　处： 《计算机应用与软件》 2009年第8期144-146,161,共4页

摘　　要： 不平衡数据集是指某类样本数量明显少于其它类样本数量的数据集,传统的分类算法在处理不平衡数据分类问题时会倾向于多数类,而导致少数类的分类精度较低。针对文本数据的不平衡情况,首先采用权重润饰(Weight-retouching)的方法进行特征提取,然后采用欠取样(Under sampling)的支持向量机SVM(Support Vector Machine)方法进行文本分类。通过实验发现,使用权重润饰和欠取样的SVM方法可以提高处理不平衡数据的分类精度。 Imbalanced data set is that the number of a certain class samples is noticeably fewer than the number of other class samplesIt causes the deduction of classification precision in minority class samples,when imbalanced data set is classified by the traditional algorithm, which tends to favour the majority class samplesln this paper,we paid attention to the imbalance situation of the text data and used weight-re- touching method to make the characteristic extraction followed by using under sampling SVM method to classify the textIt is shown through the experiments that these two data processing techniques can improve the classification precision of the imbalanced data set.

关键词： 文本分类机器学习权重润饰欠取样

领　　域： [自动化与计算机技术] [自动化与计算机技术] [农业科学]

相关作者

作者李利梅: 作品数：5被引量：26; 供职机构：深圳大学; 发文主题：大学学科;统计分析;统计工作;统计人员素质;统计手段;网络舆情;文本分类;销量;教育统计;监测预警;高校舆情;股票市场;法律规范;房地产市场;高校管理;大数据;大学生

作者周凌燕: 作品数：2被引量：0; 供职机构：北京语言大学; 发文主题：特征提取;文本分类;聚类研究;词典编撰;词汇

作者肖可: 作品数：5被引量：12; 供职机构：华南师范大学经济与管理学院; 发文主题：网络伦理学;竞争情报软件;竞争情报系统;计算机伦理学;信息伦理学;国外信息;统计分析;文本分类

作者朱成: 作品数：2被引量：0; 供职机构：广东外语外贸大学; 发文主题：语义翻译;纽马克;文本分类;文化因素;交际翻译;翻译方法;译本

作者曹雨婷: 作品数：1被引量：1; 供职机构：暨南大学外国语学院; 发文主题：网络舆情;文本分类;监测预警;高校舆情;大数据;大学生

相关机构对象

机构广东外语外贸大学: 作者数：8857; 发文主题：创业研究,法治,语言学,战略性技术,系统功能语法,行政体制改革,语言维度,词汇语法,部门行政职权,主语,语法,双语词典,私有财产权,行政行为,创业决策,企业动态能力,语态,下行,级差,网络营销,语言模式,企业,可持续发展,具体行政行为,公法保护,法律规制,创业者,绿色营销,行政权,文体学,电子商务,人际,行政诉讼,服务型政府,实证研究,行政法治,汉语,营销研究,行政法,司法审查,系统功能语言学,组织知识,行政主体,企业家决策,动态能力,文化,企业绩效,语篇,法治视野,语义,韩礼德,英汉大词典,绿色消费,风险感知,商务背景,廊桥遗梦,持续竞争优势,公共行政,行政相对人,

机构中山大学: 作者数：27151; 发文主题：电视节目,用户,实证研究,家居,硬件,视域,异构,权利,分布式存储,蓝牙,启迪,从严治党,音乐门铃,领导干部,加密方法,中间件,党内权力,数字电视,权力监督,制度反腐,实体化,数字家庭,民主监督,社会主义国家执政党,马克思主义,监控系统,视频图像,中间件系统,数据传输方法,毛泽东,中国特色社会主义,风险评估,中国共产党,邓小平,素质教育,青年农民工,嵌入式,

机构广东外语外贸大学社会科学系: 作者数：29; 发文主题：教育体制,勤工俭学,道德品质,双向互动,单极化,国际政治,利用外资,邓小平理论,军事活动,历史过程,高等教育,高校,青年志愿服务,孙中山,社会不良现象,沦陷时期,心理素质,社区建设,反恐怖主义,城乡分割,失范现象,子女,蒋介石,义务教育,精神文明建设,大学生社会实践,教会,多极化进程,日本侵略者,社交能力,经济掠夺,霸权主义,单边主义,自我实践,外交艺术,外交思想,外交战略思想,社会道德,历史意义,民工,移民,大学生,德育理论,邓小平,贫穷,学生社会实践,

机构暨南大学: 作者数：20971; 发文主题：行政手段,比较文学,法人资格,东亚货币合作,世界华文文学,三民主义,追寻,国际移民,双方当事人,文艺理论,法律地位,多角化经营战略,区域经济合作,经济法学,孙中山,国家所有权,母语教育,章程,网络,海外华文教育,横向经济联合,产权关系,专利法,文学传统,华裔美国文学,致辞,马来西亚华文教育,整体观,监事会,国有资产所有权,华族,全过程,汉语文学,冷战后,法律调整,全球语境,统战工作,海外华文文学研究,华文教育,辛亥革命时期,结构性权力,华人社会,海外华文文学,他者,文本阅读,涉外经济法规,粤港澳,经济法制,东南亚华人,新移民文学,人口比例,经济联合体,中国文学,企业集团,跨文化,社会参与,法制管理,文学概论,全球化语境,文艺学研究,

机构暨南大学华文学院: 作者数：655; 发文主题：言语风格,汉语阅读,日本汉学,音译外来词,隐喻分析,瘦马,读写一体,语言文字,咏物诗,言语交际,清平山堂话本,影印本,汉语教学,用法,变文,翻译,语境,印度文学,俗语词,对外汉语教学,第二语言教学,语用分析,评语,汉语语感,语素,教师,语感,误解,指称,汉字教学,汉语,词汇研究,英汉对比,留学生,词源学史,应用语言学,华文教育,汉文化,风俗,教学方法,中印文化,异形词,交融,印尼语,语感培养,对外汉语,语感教学,民俗,认知语用学,明清时期,注释,语用学,修辞,汉语修辞学,印尼华文教育,动物隐喻,

相关领域作者

作者俞守华: 作品数：3被引量：0; 供职机构：华南农业大学; 发文主题：异常检测;神经网络;农业经济;综合评价;熵权;法;聚类;机械化生产;信息管理平台;广东农业;甘蔗

作者李文姬: 作品数：3被引量：0; 供职机构：广州市社会科学院; 发文主题：云计算;中国社科院;中科院;社会信息服务;数据库;数字图书馆;网络;信息服务;信息资源

作者邵慧君: 作品数：9被引量：21; 供职机构：文学院; 发文主题：粤方言;粤语;综论;语音比较;语音数据库;语音特点;战国时期;第一人称代词;送气;同源;代词系统;清分;厦门话;小称;海话;儿尾;方言词汇;白话;变调;变音

作者杜松华: 作品数：2被引量：0; 供职机构：广东工业大学; 发文主题：社交媒体;农业现代化;企业;电子商务;可持续发展;共生共赢

作者王和勇: 作品数：6被引量：36; 供职机构：华南理工大学; 发文主题：数据分类;关联规则;指标体系;数据挖掘;主题发现;网络;文本;海量数据;核心用户;分形;高维数据;均值聚类;不平衡数据;不平衡数据集;大数据

联系方式

电话：020-38800179

邮箱：gdtheory@126.com

地址：广州市天河区天河北路618号广东社会科学中心

邮编：510635

友情链接

扫一扫手机浏览

广东省社会科学院·广东省哲学社会科学数据库·广东智库版权所有 Copyright©2012 gdtheory.cn All Rights Reserved.

违法和不良信息举报中心举报邮箱：jubao@cqvip.com 粤ICP备10080020号-3