帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

基于集成学习的半监督分类学习研究

导  师: 朱锋峰

授予学位: 硕士

作  者: ;

机构地区: 华南理工大学

摘  要: 集成学习和半监督学习是机器学习领域中两个重要的研究方向。半监督学习主要研究的是如何利用无标签样本提高分类器的学习效果,集成学习是属于监督学习领域内的方法,它研究的是采用何种方法组合多个存在差异的分类器,从而使得最终的学习模型效果强过单个分类器的结果。在样本空间中,相对无标签样本,有标签样本是非常少的,当仅使用有标记样本进行模型学习时,就丢弃了无标签样本中隐藏的信息。集成学习作为使用有标签样本的代表算法之一,本论文研究的是如何将集成学习与半监督学习进行组合,从而提升分类器的学习能力。本文主要关注的是多分类问题,传统解决多分类问题的方法是将多分类问题转化为一对多、一对一或者多对多问题,而本文是将多分类问题的类别标签转换为二值向量。本文对文献[21]中的基于标签扩散的集成半监督分类算法SSE2进行了改进,设计了一种基于标签样本损失的的集成半监督分类算法。这种算法以Bagging集成方法为算法框架并且选取SVM作为基分类器,使用全部的有标签样本建立子分类器,并且利用Bootstrap法随机抽取加权的无标签样本子集,再次使用KNN分类器选择部分无标签样本扩充有标签样本数据集,建立20种具有差异的SVM分类器,对最终的结果采用多数投票法进行判定。通过交叉验证方法在11个UCI公共数据集上进行实验验证,结果表明:第一,根据数据集的不同,相同的分类器所得的结果也不同,同时分类器的性能也随着有标签样本占比的增加而提高。第二,当有标签样本分别占比10%和20%时,与改进前的集成半监督分类算法相比,改进后的集成半监督分类算法的正确率在测试集上平均提升了5.77%和3.52%。更多还原

关 键 词: 集成学习 半监督学习 交叉验证

领  域: []

相关作者

相关机构对象

相关领域作者