文件名称:大数据差分隐私保护方案设计与实现.docx
文件大小:1.3MB
文件格式:DOCX
更新时间:2022-07-12 08:34:42
差分隐私 大数据
本文采用数据挖掘中常用聚类K-means算法,并结合差分隐私技术,借由Hadoop的Mapreduce并行框架实行,并且改进传统的随机选择初始中心点的弊端,采用平均划分 个数据集的方法得到初始中心点。迭代中在每个聚簇的属性向量和与数据总数目中加入Laplace噪声后计算聚类中心点,以此实现差分隐私保护。最终结果的评价通过设置两组对比实验得出:通过设置不同的隐私预算参数,在相同聚类个数下采用F-measure指标衡量最终聚类可用性,通过对比得出本文改进的算法在结果可用性上有一定改善;通过设置不同聚类个数,与原始聚类算法的对比评价聚类结果准确性,通过对比得出不同的聚类数目下对聚类的准确率影响较小,但数目增多时,仍会使准确率下降。