帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

基于差分隐私的频繁项集挖掘算法的研究与实现

导  师: 黄培之

授予学位: 硕士

作  者: ();

机构地区: 深圳大学

摘  要: 近年来,随着数据爆炸性地增长以及信息科技的高速发展,导致各行各业通过各种渠道都积累了海量的数据。人们逐渐意识到在海量的数据中隐藏着很多有用的信息。从中发现或“挖掘”有用的信息来应用到各个行业(比如电子医疗分析、商业决策、潜在客户分析等等)成为人们亟待解决的问题。这时候传统的方式已经不足以解决如此复杂的任务。所以数据挖掘技术得到了迅猛发展。但是在挖掘数据的过程中,数据泄露的事情频有发生。民众或组织对数据保护愈加警惕。长此以往下去,没有了数据的支撑,挖掘任务无法顺利进行下去,所以隐私保护问题在数据挖掘任务中的作用日趋重要。在本文中,我们主要关注数据挖掘领域中关联规则隐私保护的问题。本文首先分析总结了当前国内外关联规则隐私保护研究的现状与不足,然后在传统的6)-匿名模型与较新的差分隐私模型中,我们回顾了一些具有代表性的隐私频繁项集挖掘算法。并讨论其相关的优缺点。事实证明,在大规模数据集下。当前方法要么不能解决计算强度的问题,要么不能提供足够的隐私保证。为了解决这个问题,我们提出一种改进的隐私保护频繁项集挖掘算法,用于解决差分隐私模型下的大规模数据集挖掘问题。我们的算法基于以下想法:首先,我们构建了基于FP-Tree的频繁项集挖掘算法,为了解决大规模数据集构建FP-Tree过程中数据量过大的问题,我们采用中心极限定理进行合理抽样;之后利用样本数据集挖掘闭频繁项集,这些闭频繁项集用于查找到大规模数据集中的潜在项集。其次,我们采用长度约束策略将随机性与隐私嵌入到潜在的频繁项集中,这一点也解决了差分隐私模型下,全局敏感度过高的问题。具体来说,它采用了字符串匹配思想来发现大规模数据集中最相似的字符串,并实现事务截断�

关 键 词: 频繁项集挖掘 差分隐私 隐私保护 抽样 智能截断

领  域: [] []

相关作者

作者 马丽
作者 唐明琴
作者 黄丹珠
作者 陈艺云
作者 纪建武

相关机构对象

机构 中山大学
机构 华南师范大学法学院
机构 华南师范大学
机构 华南师范大学经济与管理学院
机构 汕头大学

相关领域作者