帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

基于高维数据的聚类算法研究

导  师: 黄俊联;尹剑飞

授予学位: 硕士

作  者: ();

机构地区: 深圳大学

摘  要: 近年来,随着互联网技术的快速发展,数据的规模和维度急剧增大,由此带来维数灾难和密度稀疏问题.高维数据中通常包含许多冗余的、不相关的特征和噪声,给高维数据的聚类分析带来了巨大的挑战.研究表明,高维数据的簇结构通常存在于数据的某个子空间,而非整个数据空间.为了处理高维数据,国内外研究者提出了许多子空间聚类方法.其中,软子空间聚类是子空间聚类算法中的一个重要研究主题,它为样本的每个特征分配一个权重,并通过权重较大的特征确定簇的子空间结构.然而,高维数据中的单个特征是微弱的,很难通过单个微弱的特征发现簇结构,对单个特征加权的方法处理有成千上万特征的数据时效果也并不理想.许多高维数据集都是不同方面观测的集成结果,以至于不同方面的特征可以进行分组,并且不同特征组在不同簇中的重要性也是不同的.有研究者提出为高维数据的特征组分配权重的FG-k-means方法,它把特征分为若干个特征组,引入特征组和单个特征的两级权重处理高维数据,并获得巨大的性能提升.FG-k-means不能实现特征的自动分组,需要根据人的先验知识进行特征分组,然而对于许多高维数据集,我们事先并不知道特征的分组信息.针对这些问题,本文以高维数据为研究对象,主要工作包含以下两个部分:(1)提出了子空间聚类中的隐藏特征组学习模型(LFGL).先前的方法在聚类过程中不能进行自动分组,需要人为根据先验知识进行特征分组,然而在许多高维数据中我们并不知道特征的分组信息.针对这些问题,本文提出了LFGL模型,首先构建一个特征分组模型(FGM),然后嵌入特征分组模型到子空间聚类算法中并构造一个优化问题,最后在满足FGM模型的要求下通过一些优化算法求解该问题.并在图像、基因等真实数据集上进行试验,通过和先前的聚类方法比较�

关 键 词: 子空间聚类 高维数据 自动编码器 维度化简

领  域: []

相关作者

作者 王和勇
作者 张玥
作者 黄明喜
作者 王宾
作者 汤俊

相关机构对象

机构 华南师范大学
机构 中山大学
机构 华南理工大学
机构 暨南大学
机构 中山大学管理学院

相关领域作者