帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

基于概率数据流的有效聚类算法
Effective Clustering Algorithm for Probabilistic Data Stream

作  者: ; ; ;

机构地区: 复旦大学信息科学与工程学院计算机与信息技术系

出  处: 《软件学报》 2009年第5期1313-1328,共16页

摘  要: 提出一种在概率数据流上进行聚类的有效方法P-Stream.P-Stream针对数据流上的概率元组提出强簇、过渡簇和弱簇的概念,设计一种有效的在线候选簇选择策略,为每个不断到达的数据元组合理地找到可能归属的簇,并在每个检查点存储微簇快照,以便离线进一步高层聚类和演化分析.最后设计一个"积极"的二层聚类模型来判断现有的第1层聚类模型是否还适应数据流中最近到达的概率元组.实验采用KDD-CUP’98和KDD-CUP’99真实数据集以及变换高斯分布的人工数据集构造概率数据流.实验结果表明,P-Stream具有良好的聚类质量、较快的处理速度,能够有效地适应数据演化情况. An effective clustering algorithm called "P-Stream" for probabilistic data stream is developed in this paper for the first time. For the uncertain tuples in the data stream, the concepts of strong cluster, transitional clusters and weak cluster are proposed in the P-Stream. With these concepts, an effective strategy of choosing candidate cluster is designed, which can find the sound cluster for every continuously arriving data point. Then, in order to further cluster on the high level and analyze the evolving behaviors of data streams, snapshots ot micro-clusters are stored at every checkpoint. At last, an "aggressive" two-tier clustering model is introduced to judge whether the most recently arrived data point is fitting in with the first level clustering model or not. Probabilistic data streams in the experiments include KDD-CUP'98 and KDD-CUP'99 real data sets and synthetic data sets with changing Gaussian distributions. Comprehensive experimental results demonstrate that P-Stream is ot high quality, fast processing rate and is efficiently fitting in with the evolving situations of data streams.

关 键 词: 概率数据流 聚类 演化分析

领  域: [自动化与计算机技术] [自动化与计算机技术]

相关作者

作者 万坚军
作者 汤俊
作者 洪明
作者 孙宗锋
作者 谷斌

相关机构对象

机构 华南理工大学
机构 华南师范大学
机构 中山大学资讯管理学院信息管理系
机构 中山大学
机构 中山大学政治与公共事务管理学院

相关领域作者

作者 李文姬
作者 邵慧君
作者 杜松华
作者 周国林
作者 邢弘昊