导 师: 余志文
授予学位: 硕士
作 者: ;
机构地区: 华南理工大学
摘 要: 聚类集成是一种将不同聚类结果或者聚类模式进行集成共识的方法,能获得比单一聚类算法更好的鲁棒性、稳定性和准确性。针对聚类集成的研究现状,其方法体系仍不够成熟,具有以下局限性:(1)在高维数据集中,每个集成单元的基聚类仍会面临维度灾难,无法发挥基聚类的优势;(2)需要寻找通用的算法和参数;(3)如何从原始数据集中获取不同的视图;(4)集成中的基聚类主要采用硬划分或软划分聚类,并没有将两者的划分信息进行有效的融合处理;(5)集成过程中会产生冗余干扰的聚类结果。针对以上的局限性,本论文提出两种有效的聚类集成方法。第一种是基于潜在模型的软子空间聚类集成方法;该方法通过Jensen-Shannon散度描述数据属性的分布特点,并结合模糊理论构造软子空间,在低维子空间中能提升基聚类性能以及集成中的结果多样性;随后通过集成概率潜在语义分析模型,构造概率属性矩阵,利用潜在因子分析方法,获得概率因子,强化类别概率。第二种是基于自适应三支决策的随机子空间混合聚类集成方法;通过随机子空间和随机参数双重随机方法解决高维空间问题以及保证集成中的结果多样性;融合硬划分和软划分聚类信息,构造粗糙集中的三支决策体系,结合聚类有效性指标混合策略,使用三支决策体系中的等价关系自适应地减少冗余干扰信息,加强聚类边界的稳定性。本文通过18个公共数据集将提出的两种方法与当前主流的聚类集成方法进行实验对比。基于潜在模型的软子空间聚类集成方法在属性差异明显的数据集上能达到很好的聚类效果。基于自适应三支决策的随机子空间混合聚类集成方法能在大部分数据集中表现出很好的聚类性能,具有泛化性,并通过非参数检验方法,其聚类性能在统计学上表现出显著的优越性。因此,本论文提出的聚类集成方�
关 键 词: 集成学习 子空间 模糊理论 混合聚类 三支决策
领 域: []