导 师: 李磊;姚正安
学科专业: G0104
授予学位: 博士
作 者: ;
机构地区: 中山大学
摘 要:
数据质量和隐私保护问题已经引起了学术界广泛的关注,并已成为当前学术界的热点研究领域.数据质量并不仅仅是指数据错误,通常定义为数据的一致性(consistency)、正确性(correctness)、完整性(completeness)和最小性(minimality)这四个指标在信息系统中得到的满足程度,也有文献把“适合使用”作为衡量数据质量的初步标准.基于隐私保护的数据挖掘是指在尽量不影响挖掘结果的情况下,让一些敏感信息得到尽可能多的保密. 当前数据质量的研究大多集中在相似重复记录清理、不完整数据清理和错误数据清理等方面.为了更适合不同数据挖掘任务的完成,本文拓宽了数据质量的定义内涵,将对数据集基于不同目标进行变换都称为提高数据质量的操作.本文主要使用了多种聚类策略来提高不同挖掘目标的数据质量. 本文拓展了传统的数据一致性(consistency)定义,借鉴连续函数的思想,提出了一个分类样本空间的一致性度量概念来衡量数据集的分类一致性,进一步将其推广到数值型连续数据上.作为具体验证,将提出的连续分类一致性定义用到了som方法中,得到基于som连续分类一致性定义的分类方法.最后从vc维的角度分析了提出算法的优点. 为了使核方法适用于大规模数据集的求解,本文提出了基于聚类加权的快速核方法.快速聚类核方法使用聚类方法让原始数据集规模缩小,从而解决了核计算中大规模矩阵的计算效率(甚至不可运行)的问题,使矩阵特征值求解问题的规模从o(n3)下降到o(τ3),τ<
关 键 词: 数据质量 隐私保护 聚类分类算法 数据一致性 数据挖掘 核方法 先验知识 分形理论 水量预测
分 类 号: [TP311.13 TP309.2]