帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

基于标签相关性和类不平衡性的多标签分类算法

导  师: 宋恒杰

授予学位: 硕士

作  者: ();

机构地区: 华南理工大学

摘  要: 随着数据挖掘的发展,多标签分类如今已被广泛应用在文本分类、图像分类、生物信息学、信息检索以及视频处理等领域中。多标签分类对每个样本都学习一个或多个标签类别。而随着数据形式越来越复杂,标签数量越来越多,未知样本的可能标签集合数量也呈指数形式增长,即多标签分类面临输出空间规模巨大的问题。在实际问题中,标签类别在语义空间中往往具有相关性,如果在学习过程中能够充分考虑标签类别间的相关性,则在一定程度上能避免巨大输出空间问题,提高分类器的分类性能。同时,在分类数据集中,不同类别的样本数量往往相差很多,即多标签分类很可能面临类不平衡问题。如果在学习过程中忽略类不平衡问题,则可能会导致分类器最终的预测结果全部偏向样本数较多的类别,从而影响到分类性能。本文针对多标签分类展开相关的研究工作,提出基于标签相关性和类不平衡性的多标签分类算法MLCI(Multi-Label Classification Algorithm Based on Label Correlation and Class Imbalance)。主要的研究工作如下:(1)针对多标签分类的输出空间规模巨大问题,MLCI算法通过考虑标签的相关性,有效地避免单独处理海量的潜在可能的标签集合,提高分类性能。具体来说,MLCI算法针对每个标签类别,通过耦合其它两个标签来构建一个多类别分类问题,从而获得标签间的相关性。(2)为了避免过度强调标签之间的相互联系和影响而忽略单一标签的特性,MLCI算法针对每个标签类别构建相应的二分类问题以体现该标签的特性,从而提高算法的分类性能。(3)为了解决类不平衡问题,MLCI算法针对构建的二分类问题,对二分类数据集进行欠采样,从而构建样本分布均衡的新数据集,然后根据新数据集训练学习二分类器;MLCI算法针对构建的多类别分类问题,对多类别分类数据进行类别合并处理以降低数据集的类不平衡率,从而提高多类别分类器的性能。(4)本文通过对7个不同领域的多标签数据集进行大量的实验来验证所提出的MLCI算法的有效性。实验结果表明,基于6种常用的多标签分类性能评价指标,相比较其他7种分类算法,MLCI算法在分类性能上有着显著的提升。更多还原

关 键 词: 多标签分类 二分类问题 多类别分类问题 标签相关性 类不平衡

分 类 号: [TP391.1;TP181]

领  域: [] []

相关作者

作者 黄玉兰
作者 李伏岭
作者 徐志玮
作者 周国梅
作者 许华

相关机构对象

机构 暨南大学
机构 华南师范大学教育科学学院心理应用研究中心
机构 广东外语外贸大学社会科学系
机构 暨南大学管理学院
机构 中山大学教育学院心理学系

相关领域作者