帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

回归算法中的差分隐私保护方法研究

导  师: 李杨

授予学位: 硕士

作  者: ();

机构地区: 广东工业大学

摘  要: 在过去的几十年中,企业、组织和政府机构收集的数字信息已经产生了大量的数据集,并且这些数据收集的速度在过去几年中急剧增加。通常,数据收集者或拥有者会对这些数据进行发布或者作进一步的分析。但是,大多数收集的数据集包含私人的敏感信息。即便数据收集者或拥有者可以应用几种简单的匿名化技术来处理这些敏感信息,但是这些个人信息仍然很有可能被泄露。因此,隐私保护已经变成一个亟待解决的紧迫问题。在保护个人隐私数据的方法中,差分隐私作为一种新提出的隐私定义,在最大背景知识的攻击下仍然能够避免隐私泄露,并且不会造成数据过多的失真。由于差分隐私保护技术可以提供这种严格的隐私保护效果,已经得到国内外研究人员的研究和认可。其中将差分隐私和回归分析相结合是一种重要的研究方向,然而目前的相关工作相对较少,并且仍然存在敏感度大、精度低等问题。为此,本文利用回归分析固有的特性,从两种不同的回归分析算法出发分别解决上述问题,主要的研究工作及成果如下:(1)对于基于线性回归分析的差分隐私保护算法精度低的问题,本文基于遗传算法的特性提出了一种改进的差分隐私线性回归方法。具体来说,该方法采用遗传算法自然选择的进化思想,在挑选出最优的线性回归模型参数的过程中引入指数机制,这使得算法的整个过程满足?-差分隐私保护。同时,方法利用遗传算法只在选择步骤过程中接触到敏感数据集的特性,合理分配隐私预算,提高结果的可用性。(2)对于基于决策树回归分析的差分隐私保护算法敏感度大的问题。本文在ExtraTrees模型的基础上提出了一种差分隐私保护的算法DiffETs。具体来说,在构建每一棵决策树的流程中,我们使用拉普拉斯机制和指数机制来保证满足差分隐私。其中在选择决策树内部节点的时候使用指数机制来选择最佳分裂特征,而在叶子节点上,使用拉普拉斯机制来添加噪声。对于本文提出的算法,我们分别应用在决策树回归和决策树分类中,提高了算法的准确率。本文提出的两种差分隐私保护回归分析算法,不仅从理论方面对算法的隐私性进行了分析,证实了算法满足?-差分隐私,而且还在UCI公开的数据集上进行了实验比较和分析。实验结果说明了本文提出的差分保护回归分析算法能够在保证隐私保护的基础上相比于已有的差分隐私保护回归分析算法可以获得更好的准确度,具有更好的实际应用价值。更多还原

关 键 词: 差分隐私 回归分析 [5128489]决策树 [950811]遗传算法 [2257328]数据挖掘

分 类 号: [TP309]

领  域: []

相关作者

作者 于志红
作者 曹婷
作者 邝丽敏
作者 肖丹萍
作者 肖璇

相关机构对象

机构 华南理工大学
机构 华南理工大学工商管理学院
机构 暨南大学
机构 中山大学
机构 华南师范大学

相关领域作者