文献详情 - Gdtheory理论粤军网|广东智库信息化平台

文献详细_{Journal detailed}

数据质量和隐私保护中聚类分类算法的应用研究

收藏

导　　师： 李磊;姚正安

学科专业： G0104

授予学位： 博士

作　　者： ;

机构地区： 中山大学

摘　　要： 数据质量和隐私保护问题已经引起了学术界广泛的关注，并已成为当前学术界的热点研究领域.数据质量并不仅仅是指数据错误，通常定义为数据的一致性(consistency)、正确性(correctness)、完整性(completeness)和最小性(minimality)这四个指标在信息系统中得到的满足程度，也有文献把“适合使用”作为衡量数据质量的初步标准.基于隐私保护的数据挖掘是指在尽量不影响挖掘结果的情况下，让一些敏感信息得到尽可能多的保密. 当前数据质量的研究大多集中在相似重复记录清理、不完整数据清理和错误数据清理等方面.为了更适合不同数据挖掘任务的完成，本文拓宽了数据质量的定义内涵，将对数据集基于不同目标进行变换都称为提高数据质量的操作.本文主要使用了多种聚类策略来提高不同挖掘目标的数据质量. 本文拓展了传统的数据一致性(consistency)定义，借鉴连续函数的思想，提出了一个分类样本空间的一致性度量概念来衡量数据集的分类一致性，进一步将其推广到数值型连续数据上.作为具体验证，将提出的连续分类一致性定义用到了som方法中，得到基于som连续分类一致性定义的分类方法.最后从vc维的角度分析了提出算法的优点. 为了使核方法适用于大规模数据集的求解，本文提出了基于聚类加权的快速核方法.快速聚类核方法使用聚类方法让原始数据集规模缩小，从而解决了核计算中大规模矩阵的计算效率(甚至不可运行)的问题，使矩阵特征值求解问题的规模从o(n3)下降到o(τ3)，τ<

关键词： 数据质量隐私保护聚类分类算法数据一致性数据挖掘核方法先验知识分形理论水量预测

分类号： [TP311.13 TP309.2]

领　　域： [自动化与计算机技术] [自动化与计算机技术] [自动化与计算机技术] [自动化与计算机技术]

数据质量和隐私保护中聚类分类算法的应用研究

参考文献更多+

二级参考文献更多+

引证文献更多+

二级引证文献更多+

同被引文献更多+

耦合作品文献更多+

相关文献更多+

相关作者

相关机构对象

相关领域作者

数据质量和隐私保护中聚类分类算法的应用研究

参考文献 更多+

二级参考文献 更多+

引证文献 更多+

二级引证文献 更多+

同被引文献 更多+

耦合作品文献 更多+

相关文献 更多+

相关作者

相关机构对象

相关领域作者

参考文献更多+

二级参考文献更多+

引证文献更多+

二级引证文献更多+

同被引文献更多+

耦合作品文献更多+

相关文献更多+