收藏 分享(赏)

分布式数据挖掘中的隐私保护问题研究.doc

上传人:weiwoduzun 文档编号:1834101 上传时间:2018-08-27 格式:DOC 页数:79 大小:438KB
下载 相关 举报
分布式数据挖掘中的隐私保护问题研究.doc_第1页
第1页 / 共79页
分布式数据挖掘中的隐私保护问题研究.doc_第2页
第2页 / 共79页
分布式数据挖掘中的隐私保护问题研究.doc_第3页
第3页 / 共79页
分布式数据挖掘中的隐私保护问题研究.doc_第4页
第4页 / 共79页
分布式数据挖掘中的隐私保护问题研究.doc_第5页
第5页 / 共79页
点击查看更多>>
资源描述

1、中a科学技术大学硕士学位论文共52页中国科学技术大学硕士学位论文分布式数据挖掘中的隐私保护问题研究姓名:李哲鹏申请学位级别:硕士专业:商务智能导教师:王卫平20070501中a科学技术大学硕士学位论文共52页摘要高新信息技术和数据分析手段的出现大大降低了数据釆集、加工和发布的难度,各类 组织希望从数据中获取有用的知识而使用最广泛的分析手段就是数据挖掘方法。该项技术的 潜在负面作用就是对隐私信息的过分搜集、滥用或买卖。因此,对组织或个人隐私的保护日 益受到各界重视并提上了研究曰程。首先,数据挖掘研究和相关从业人员希望更高的数据可用性和精确性、信息越详细越 好,这样可以减少前期工作量并极大缩小结果

2、的失真和偏差;从用户的角度来说,则不希望 暴露隐私细节,从而更倾向于使用各种数据扭曲方法来保护自有隐私信息。这类对立行为的 现实后果就是使得研究人员必须花费更多的时间和工作来弥补由此导致的数据实用性和精 确度的损耗。本文着眼于建立考虑隐私保护的数据挖掘平台,将有助宁在完成挖掘任务的同 时保护参与者的隐私信息并防止其被滥用,从而缓和此类矛盾。其次,在分布式的数据存储环境中,各个数据库所有者都倾向于以最大的可能来保护 本方隐私(商ik 模式、战略行 为等)。文中设计了一种可以在保护个体隐私的基础上展开全 局合作的数据挖掘工作平台和算法,以保证此过程中安全地交换统计信息而不涉及具体隐私 细节,从而更

3、好地满足现代企业和商务发展的隐私性需求。本文介绍分析了前人的各种方法思想及各自优缺点,并从两个方面入手展开研究。首 先,分析了快速分布式关联规则挖掘算法(EDM),指出在复杂甚至恶意的环境中保留可置 信的第三方(TIP) 般认为是不安全的做法;将安全多方计算(SMC) 的思想引入数据挖 掘任务进而实现了各站点的平等合作(无需第三方介入)。其次,在设计防串谋的隐私保护 平合时,定义了分布式仓作数据挖掘任务中的一类恶意威胁,放松了半诚实假设并在预防此 类恶意行为的基础上实现了解决算法平台RPA。文章最后,设计仿其实验将RPA与另外两种代表性的分布式数据挖掘算法 (FDM快速 算法和CER 加密算法

4、)进行了比 较。实验结果表明RPA平台具有较好的挖掘计算效率和效 果:(1)该方法仅增加线性通讯次数,是一种轻量级的解决方案;(2)所有的站点都可以得 到有力的保护,避免了站点子集隐私泄漏的可能。关键词:数据挖掘,分布式数据集合,隐私保护,恶意行为,计算集成平台中a科学技术大学硕士学位论文共52页AbstractThe potential side-effect of this method is over collecting, misusing and selling of information. Along with the global drive for digital proce

5、ss and newly emerging method for dataFor the first thing, data j! expect more accurate, applicable and detailed data which willtheother hand, ordinary users prefer to maintain their own privacy by widely using anonymous tools to preserve their privacy which wodd impair the applicability of data coll

6、ected. This may require researchers* efforts to compensate the lost in accuracy and applicability caused by this inclination. This paper, based on privacy preserving consideration, builds a data mining platform to protect each participants privacy during the cooperation and prevent further itheir pr

7、ivacy (business pattern, strategic behavior, etc,). In our work, it is designed a working platform and algorithms to operate global cooperative data mining while protecting individual private iBfoTmation to assure secured exchange of statistics without involving of specific details. This work will s

8、atisfy fiarther privacy requirements of modem enterprises and business development On the basis of reviewing prior researching methods in privacy-preserving data mining and analysis, this paper contains two major investigations. In the first place, it analyzes the fast distributed association rule m

9、ining algorithm (FDM), pointing out that it is generally considered insecure to keep a Trusted Third Party (TTP) in the model, especially within complex sometimes malicious surroundings; applies Secured Multi-party Computation (SMC) method into DM task and realizes equal cooperation between each par

10、ticipant. In the second place,it is defined a stream of malicious threatening in distributed data mining task and semi-honest assumption and Ring Polling Algorithm (RPA) platform is implemented against this stream ofend, we compared the proposed RPA with other two representative distributed data alg

11、orithms FDM and CER in the synthetic simulation, and the result show it is (1) lightweight solution for only increasing linear communication times; (2) effective for all sites are covered by suggested protection.Keywords: Data Mining, Distributed Datasets,Privacy-Preserving, Malicious Integrated Com

12、puting Platforminformation technology and analysis method have greatly reduced the difficulty of data collection, process and distribution. Using the most extensively applied analysis中a科学技术大学硕士学位论文共52页中国科学技术大学硕士学位论文第6页共52页第一章绪论 1.1研究背景与意义本文的研宄背景和出发点主要包括三个方面的内容:(1)电子商务数据挖掘中的个人 隐私保护。应用于电子商务网上营销的数据挖掘会带

13、来一些社会问题,其中最敏感的要属个 人隐私问题。当消费者觉察到他们的个人信息未被授权就被使用、滥用甚至出卖时,会感到 自己的隐私权利受到了极大的侵害,(2)动态企业联盟的合作数据挖掘中的隐私保护.电子 和信息技术的飞速发展极大地影响了现代企业的发展趋势,在Internet和各种信息技术手段 的帮助下,地理上分散的企业和组织可以形成松散联盟,分担风险,整合资源,共同应对竟 争压力同时这种联盟很可能是动态的,每个企业都有保护己方隐私的愿望和动力,因此具 体在进行数据挖掘工作时毎个参与方都不希望直接公开自己所掌握的信息,同时他们为了获 取关于整个行业全周有价值的信息又不得不展开合作。(3)随着数据挖

14、掘技术、手段的广泛 运用,人们逐渐认识到,在运用数据挖掘分析手段的同时数据所有者的隐私信息(商业数据、 个人数据、行为模式和私有信息等)都会暴露无遗。因此有必要在数据挖掘中弓tA隐私保护 的概念,文中专指人们通过多样的手段在各种应用环境下,设计多种算法和机制以实现在保 护数据所有者隐私的基础上完成关于全局的挖掘任务, 1.1.1隐私保护的现实意义自萨谬尔D.沃伦和路易斯D.布兰戴斯于1870年在哈佛法律评论上发表了著名的隐 私权一文后fs】,一个多世纪以来各界专家学者致力于隐私相关问题的理论研究和实务工作. 中国科学技术大学硕士学位论文第7页共52页传统的隐私权保护着重强调个人不受他人干涉的权

15、利,然而随着人类进入信息时代后利用信 息技术进行数据的采集、加工和传输变得十分便利,人们以及绝大部分组织越来越多地关心 包括数据信息在内的隐私权利。当今社会随着信息化浪潮的愈演愈烈和各类信息釆集、加工和应用系统的飞速发展:从 前价值不为人知的数据信息似乎在一夜之间迅速发展为社会经济中一项重要资源。现实生活 中,数据信息池漏的例子已举目皆是,医院可以将孕妇的姓名、电话号码等个人信息泄漏给 婴儿用品商,车管所将车主登记信息交给各类保险公司,婚姻登记处将新人信息出售给婚宴 筹办中介等等诸如此类。接下来可以预见,随之而来的将是来自这些利益团体发布的针对性 极强的商品广告和服务推销,一方面这些服务可能某

16、种程度上会方便人们的生活:然而更大 程度上是带来挥之不去的烦恼并引发不安与恐惧感,更不虞说这些信息还有被二次转手并不中国科学技术大学硕士学位论文第8页共52页恰当使用的可能性。值得注意的是,这些信息的搜集过程都是必要的而且看似安全的;然而 它的池漏过程绝大部分都是出乎所有提供者意料之外的。在这样的大环境下,如果未来的数 据来集、加工和发布不考虑隐私保护内容的话,就必然会出现提供者为了自身安全而提供虚 假数据从而影响最终应用结果的局面。所以本文中所讨论的内容和保护的对象主要是在数据挖掘任务中,个人或组织不應意公 开的数据、模式及由此衍生的信息. 1.1.2隐私保护的研究意义当前,网络和信息技术的

17、高速发展,逐步凸显隐私问题的严竣,个人数据泄漏事件几乎 毎时每刻都在发生,以对cookies 的溢用为例,其设计初衷是为 了通过记录客户的个人资料、 访问偏好等信息,实现某些高级功能,这个记录过程对用户可以是透明的;然而一部分网站 和机构却未经访问者许可,揸自搜集其个人信息,构建用户资料数据库,用于发送商业广告, I三方机构以牟取经济利益。根据Jupiter Research于 2005年3月发布的一项调 将近58% 的网络用户选择删除驻留计算机的cookies文件,多达39% 的使用 者每个月定期清除最常用计算机中的cookies文件。这反映出因特网使用者对隐私与安全的 顾虑加深。对于电子商

18、务有关的数据挖掘而言,这股趋势味着cookies可能不再是可以追 踪访问者(点击流、访问路径、行为模式)的精确方式了分析人员指出,所有个性追踪与 对象识别的方法都需要利用cookies 来辨认频繁用户,如此一来便使得所有有关电子商务的 数据挖掘应用结果变得不可靠,尤其是远期预_精度大打折扣,从上例中我们可以获得启示:未来包括数据挖掘在内的信息来集、处理和传输手段必 须考虑隐私保护问题。数据挖掘中的隐私保护是近年来的一个热点问题这是由于(1)数 据挖掘技术可以通过看似没有关联的数据发现出有价值的信息。换句话说,这些有份中国科学技术大学硕士学位论文第9页共52页值的信 息也有可能是个人或组织不愿意

19、公开的;(2)数据挖掘技术的广泛应用可能导致对于个人信 息的过度搜集。为了提髙预测或模式匹配等数据挖掘技术应用的精度,一条捷径就是获取更 加详尽和精确的数据信息,这就使得未经授权的数据搜集有利可图,同时此类信息的所有者 往往并不愿意令其为人所知,从而滋生隐私侵害现象;(3)隐私侵害问题严重影明了数据挖 掘技术的推广,在面临隐私泄漏威胁时,个人或组织用户更多地选择匿名、模糊化或拒绝共 享的方式来避免自身的受到侵害,而这些都直接影响了数据挖掘技术的应用效率和效果。 综上可知,不解决隐私保护问题,将极大地制约数据挖掘技术的发展和应用前景1.2论文的研究对象和所做的工作中国科学技术大学硕士学位论文第1

20、0页共52页本文的研究的对象是隐私保护的分布式数据挖掘平台,这里特别是指在分布式关联规 则挖掘的 环境下,以统计信息为主要保护对象的隐私保护 算法及隐私保护机制。 在本文中主要做的以下工作-(1) 分析介绍了已有的相关隐私保护的挖掘技术和算法对现有数据挖掘应用中采用的技术和各种隐私保护箅法分别作了详细的分析,介绍各自 的原理,分析其优点和缺点,并指出其各自不同的适用范围.(2) 对考虑恶意行为的分布式关联规则中隐私保护的技术研究在分析考虑隐私保护的分布式关联规则挖掘的研究假设和实现步骤以及相应技术方法 的基础上,分别根据模糊化无效攻击和恶意邻居威胁提出不同的解决方法,初步设计和比较 分析了各种

21、应对类似威胁的解决方法.(3) 提出一个抵抗恶意行为攻击的分布式关联规则挖掘平台本文提出了可扩展的环网轮询平台对以往不考虑隐私保护的基础平台进行改进.并同时 保证了较好的运行效率,安全地产生最终的计算结果。经过实险比对,与现有同类隐私保护 方法相比,新算法表现出了较高的安全性和运行效率。1.3论文的结构安排本文在绪论部分介绍了隐私保护的研究背景和意义以及本文所傲的工作,第二章回顾 了数据挖掘中隐私保护的概念、研究内容、框架结构、所采用的主要技术和发展。第三章主 要阐述现今隐私保护的数据挖掘中主要采用的算法、杭制,研究比较其原理、优缺点及其适 用范围等一些相关问题第四窜研究了考虑恶意行为的分布式

22、关联规则隐私保护挖掘方法, 分析各类恶意侵害类型,提出相应的应对策略,构建并实施了防串谋的分布式关联规则隐私 中国科学技术大学硕士学位论文第11页共52页保护平台以及通过仿真实验对比分析了各种同类解决方法的效率和效果。第五章为本文作最 后的总结,提出将来的工作。1.4本章小结本章介绍了隐私保护的研究背景、现状等,强调了本文研究的意义。提出了本文研究 的对象和所做的工作,并对论文的结构安排进行了简要的说明。第二章数据挖掘中的隐私保护回顾Mining)技术是近年来兴起的分析和预测手段,并在众多的领域和行 业中得到了广泛的应用;而隐私保护一直是个人和组织所关心的问题,之前的数据挖掘工作 在这方面欠缺

23、考虑。在本章节中我们将介绍近些年来,在数据挖掘的研究中为了保护各种隐 私而采用的方法、手段和相关理论,具体的算法思路将在下一章加以阐述,2.1引言隐私问题近来吸引了数量众多的研究人员投入大量的精力,那么究竟数据挖掘技术的使 用及其结果会在多大程度上、如何侵犯个体或者组织的隐私呢,为了让读者对此有一个直观 的认识,我们首先从数据挖掘技术本身入手.大型数据库中的信息和知识挖掘被学者们看作是数据库系统和机器学习领域研究的关 键问题;并被产业界人士看作是有可能发掘出大fi利润的重要领 域。为了改善服务、更好地 1:解客户行为和开发出新的商机,在许多新兴的倌息服务领域的应用中,如数据仓库和因特 网在线服

24、务等,都提倡釆用各种各样的数据挖掘技术,它们包括:分类、关联规则挖掘、归 纳挖掘和聚类分析等 1。下面我们就以当前最广泛且矛盾最突出的Internet和Web Mining为 例,探究一下数据 挖掘技术是如何危及人们的隐私信息的。在思考用户是如何辨别出来之前,更重要的问中国科学技术大学硕士学位论文第12页共52页题是 为什么数据挖掘者和商家对于这些可识别身份的信息/数据如此感兴趣,数据挖掘的传统做 法是将用户的点击流当作是另一种形式的交易数据来进行挖掘,专注于挖捆用户在一个或多 个网站之间的浏览路径来得到用户行为模式用于分析和预测,而并不看重特定用户的身份信 息所以他们所使用的技术也是为了重构

25、用户行为而不是辨别用户身份。而另_方面,商家 却不是这样,他们不光有兴趣知道网络用户做了什么,同时也想知道这个用户是谁。换言之, 商人是为了完善一个不断增长和细化的个人用户资料库,这个资料库不光包括他们的浏览习 惯也包括个人细节信息,如:姓名,住址,收入和其他人口统计学及心理学要素。这种傲法 在推荐系统中十分普逋,这样使得商人能够更加精确地投放在线广告或者与其他如即时通讯 商等合作开展业务.此外更严重的是,无孔不入且挥之不去的cookie和其他信息采集技术 使商家们可以从用户过去访问过的大量看似毫无联系的网络站点,获取到用户的浏览习惯和 个人资料。那么也就是说,用户在任何一个站点留下的个人身份

26、信息都会一字不落地被搜集中国科学技术大学.士学位论文起来,同时被获取的还有他的浏览模式,这类信息可以被所有参与合作的网站共享P1。研究人员和科技工作者们正在试图创建或改良出新的数据挖掘技术,来解决如何在精确 发掘用户行为模式的同时又能保护用户隐私的问题,这种新技术的实施将从很大程度上打破 现在普遍存在的隐私保护和数据挖掘精度难以两全的局面.2.2数据挖掘中隐私的定义在回顾了自18卯年以来诸多观点P“*“”的基础上,Stanley R.M. Oliveira等人于2004 年指出,隐私虽然被大多数人认为是个社会和文化概念,然而由于计算机的广泛应用和web 网络的兴起,隐私保护也随之转变成了一个数

27、字领域的问题丨“I,Stanley同时给出了隐私保护 数据挖掘 (PPDM: Privacy-preserving Data Mining)的一个综合概括! PPDM可以同时实现以下 双重目标,即提供有效的数据挖掘结果和满足隐私性需求。该定义点明了保持隐私性和知识 发现之间谋求平衡是问题的困难所在。理解数据挖掘工作中的隐私性要求,首先就是要了解在此过程中隐私是如何被侵犯的以 及防止隐私被侵犯的意义。总体上看来,数据挖掘工作中隐私受到侵犯的一个;要方面就是 “数据滥用”,即不恰当地搜集或使用用户数fe。隐私侵犯行为的源头称为“数据磁石”【81。数据磁石是一类用来搜集用户信息的技术工 具,包括运用

28、直接方法搜集,如在线注册,辨认用户IP地址,登记以换取软件下载权限等: 以及通过间接途径搜集来获取数据以资二次使用。在许多情况下,用户也许并没有意识到自 己的信息己经被搜集了甚至也不知道信息是怎样被搜集的更加危险的情况就是隐私侵 犯行为发生在对数据的二次使用过程中,则用户可能完全不了解其间的“幕后操作”,即数 据挖掘技术是怎样被使用的【1 21具体到当前的情况,对用户数据的使用已经远远超出中国科学技术大学.士学位论文了用 户本人和隐私立法可以掌握的范畴;事实上由于司法和社会道德的约束力不够.信息领域侵 犯隐私的行为已经不可控制,这种情况的出现不是由于数据挖掘技术本身的缺陷,而基本上 都是始于人

29、们对数据的滥用。 2.2.1 隐私的分类Chris Clifton等人于 2002年给出了如何定 义和理解数据挖掘中的隐私性约束的概要丨 指出看待数据挖掘中的隐私问题应从两个角度出发: (1)个人信息角度当人们谈论隐私的时候,他们往往都会通俗地说成是,“不让别人知道有关我的信息“。 这种担心背后的意图是要确保自己的信息不会被他人滥用人们之所以感觉害怕其实是认为第10页共52页旦自己的信息被公开,那么这些信息就无可避免地会被滥用(现实中这种情况屡见不鲜), 另外,为了彻底实现隐私保密,潘要从技术和社会两个层面寻求解决方法.(2)信息集合角度即发布的是关于数据集合的信息而不是关于个体的数据记录。人

30、们一般不会在意他人知 道自己的生日,母亲的姓氏或学号中的任何一项,但是试图搜集全部这些信息就有“窃取身 份”的嫌疑。这个问题同样存在于大型的、由许多个体组成的集体性数据中,某项可以保证 个体隐私安全的技术不一定能同时保证描述集体情况的信息隐私安全,事实上此类全局信息 往往是数据挖掘任务的目的,因此挖掘的某壁结果依然引起人们关注甚至不安Stanley R.M. OUveira等人在稍后的研究中给出了数据挖掘工作中隐私保护的定 义隐 私保护的行为往往发生在两个维度层次上:用户个人信息维和用户集体信息维(1) 个体的隐私保护中国科学技术大学.士学位论文数据隐私性的首要目的就是要保护个人身份信息。一般

31、来说,如果信息可以直接或者间 接地通过连接查询追溯到某个人,那么这类就是可以定位个人身份的信息那么当此类个人 数据被用于挖捆工作的时候,关于个体的属性值就是有隐私性要求的并且须要加以保护使之 不被披露;挖掘者可以从全局模型,而不是I从特定、具体的个体特征来 获取有用的知识(2) 集体的隐私保护在数据挖掘工作中,仅仅保护个人数据还不够,有时候我们需要防止代表一个团体各种 行为的敏感知识被窃取。这么做的目的类似于保护统计数据库的方法:通过安全性控制机制 来提供关于群体的总计信息,并同时保护个人的机密信息另一个保护集体隐私的重要目的 在于防止有关战略决策的关键模式被预期之外的对象获取,除此之外,在集

32、体隐私保护的情况下,各组织须要处理一些矛盾。比如说,分折个人信 息以发掘未知的关于用户消费模式、爱好或者消费倾向的知识,这些知识可以用于推荐系统 中,来预测或者影响他们未来的消费行为模式虽然这种应用对于消费者和商业组织来说都 有好处,但是当组织在某个合作项目中共享这类数据时,就不光要保证用户个人身份信息的 隐私性了,还要保证其自身的战略模式不被泄露.使用有关战略模式的知识指导商业活动, 被认为是可以获得竞争优势的,因此此类信息也应该得到保护更具挑战性的是,如何 保护可能从机密信息(例如,医疗、金融和犯罪信息)中发现的知识这种情况下,隐私保 中国科学技术大学.士学位论文护措施的缺失会危及个人/集

33、体隐私,此时侵犯集体隐私最终也必将导致个人隐私受到损害 2.2.2 隐私的度量在许多现实情况中,我们还无法直观、准确地表达这样一个事实,即如何才算做到了令第丨1页共52觅中国科学技术大学硕士学位论文第12页共52页可以用于侵害隐私的信息无法被对手获得,这个命题虽然很好理解,但是由于隐私是一个比 较抽象的概念,所以之前我们无法回答诸如,“隐私究竞在多大程度上被侵害了?,, “这种 侵害给我带来了多大的损失? ”等此类问题。由于隐私这个概念并不绝对,所以绝大多数关 于隐私权的立法都要权衡使用隐私信息的利弊。例如,在许多关于保护隐私的法条中强调的 “符合公众利益 【 141为了分析数据挖掘结果的效益

34、和隐私损失之间的得失关系,我们需 要量化关于隐私的若干抽象概念,找到它们的度量标准根据M. Kantarcioglu等人的研究结论判断一个数据挖掘模型是否侵犯了隐私首先 需要弄潘楚以下几个问题:什么样的信息是敏感的机密信息?这些信息对于谁来说是敏感 的?这种信息的发掘会危及谁的隐私和利益?隐私和利益的交换在什么程度上是可以接受 的 ?我们应该 如何度量这种交换?后两个问题的关键就在于隐私相关概念的度量标准. 2.2.1分类隐私在分类挖掘任务中,有一种利用贝叶斯分类误差来定义判别器精度度量标准的方法 假设有数据 (Xi,X2,.,jc),我们现在要将这些数据划分到 ni个类别中去,这m个类别记为

35、 - 对于任意分 类判别器 C 有:wC(;Oe(U.,;-l, i.,2,.,n 判别器 C的精度可以定义为:PrC(x)iz-iPrz-i.这 么做可以保护单个用户的稳 私么?这个问题实际上转化为,在一部分个体可以被正确分类的前提下:如果对手设法获取了训练样本 数据集合后,可以在髙于分类准确度的水平上预测用户分类结果,那么这部分用户的隐私损 失则要商于期望值(比预期的差、判别器揭示数据输入和其预测分类之间的映射关系。尽管知道类别标号本身是无关紧 要的,然而这种判别器可以用来建立一个有违设计初衷的推理路径 若 ,对手有/个样本, 来源于满足一定分布的数据集(尸,?),使用这t个样本可以建立判

36、别器令a;表示G的 中国科学技术大学硕士学位论文第13页共52页预测精度假定对手已知一个“非机密”的判别器使用C和(个样本数据,对 手可以建立一个判别器C2:f,C(尸)用表示Cz的精度。那么如果优子则认为 判别器C危及了 S 的隐私以上P表示公开数据,S 表示被预测的机密数据值。给定满足一定分布的集合(/“.t/.S),尸是所有人都可以访问的公开数据,代表试图保 炉的机密数据,U 表示对手未知的数据。对 手已知一个黑箱分类器 :,可以用来在给出 的前提下预测IL假设有f个样本幼 对手己知,我们的目的就是要知道揭示 C是否会在未来的判例中增加对手预测S值的可能性C可能会包含关子P和/联合分布的

37、信息(或者等同的条件信息( 1/丨尸)否则C将会(等同于随机猜测),对手可以将C或者C(P) 与 己知的信息i*结合来推出S, 形式化定义如下:从P,S 中取出c 和样本,令Pit) - p; P; S, Pin C)- pf, P,CP),S 分别表示仅仅使用P 和使用i; CfP)的贝叶斯分类误差;另外使得我们得到如下定义:当0jKl 且时,则称分类器C是ftp)隐私侵犯 的;而当歹(C)sp-p时 , 则 称C是劝隐私侵犯的从这个定义我们还可以看出,拥有较多的训练样本集合t将使得对手的分类器更优 2.2.2.2重构隐私在关联规则挖掘的隐私保护中,被广泛使用的一个手段就是数据扰动,该方法通

38、过将数据修改变更或者加入噪音来保护用户所提供数据的隐私性,由于该方法是通过在提交挖掘数据之前,改变用户输入来达到保护隐私的目的,我们就可以用变更后的输入数据被重构(还原)的概率来衡量隐私性简而言之就是“以多大的概率我们可以还原一个随机的1/0矩阵?”S.Agrawal等人在16】中指出,隐私可以在两个层次上计算得出:基础隐私(BF) 和后验隐中国科学技术大学硕士学位论文第14页共52页私(RP)对于前者来 说,在数据挖掘工作完成后,工作人 员就不能访问变更后的数据了:而对于后者来说,挖掘人员可以利用前一次的结果(关联规则)来重审已变更的数据库,这样很可能导致隐私性的减少假设1 被翻转变更的概率

39、是l -p且0 被翻转的概率是那么基本隐私就是衡量这么一种概率,即在挖掘程序之前可以从被变更的输入精确重构顾客C购买了物品i这一行为的概率令表示物项/的真实支持度,即顾客C购买第I项商品的概率是如 Jf;表示原始输入,经过变更后为正确重构的概率如下:-IIAT,. -lxPrAr,-1 +fVy, -llKj-1以上表达式说明了从真值数据库到变更后数据库然后再重构真值的的过程其简化步骤如同时我们知道,中国科学技术大学.士学位论文 PrYi=lPrXi = ly.PrY =恥= QPrYi =狀SiXp+(l-Six(l-p同样地 iMAT,-1丨1-0/个/、综上可知,;、+ . ysiRii

40、p.s,那么对于所有的物项来说,-在可以计箅重构概率的条件下,我们可以将?此种方法中的用户隐私定义为如下的百分数:/KP)-(1-R(P )X100。这就是说,当重构概率为0时,隐私性是100%,而R(p)=l时,则为(h 2.2.23加密隐私该方法是通过对原始或者传输的数据进行层层加密来保护敏感信息和实现安全传输, 从而达到保护隐私的目的。由于目俞流行的密码学方法的多种多样,此类方法的隐私性没有 统一的度量标准.在这里一般说来,加密的隐私性可以用密码或者通讯方法被对手破解的概2.3集中式数据挖掘的隐私保护方法般来说,在集中式环境中考虑隐私保护问题多半采用的是变更数据方法,而且经过 这种变更后

41、的数据可以在集合水平上重构其分布特征。变更数据的方法主要是通过修改需要 公开的原始数据库,并且发布修改后的数据库来实现合理的隐私保护等级。数据变换的方法 主要包括以下几种隐藏、阻隔、聚合、互换和抽样。 2J .1启发式方法有鉴于选择性数据变换和淸理是NP-Hard问题 ,人们开发了许多启发 式方法来解决复 中国科学技术大学.士学位论文杂度的问题,其适用于诸如,分类、关联规则和聚类等数据挖掘技术当中。 23.1.1关联规则隐藏MikeJ. Atallah等人在18丨中提出为了在关 联规则挖掘中隐藏敏感频繁项集的最优化数 据清理是一个NP-Hard问题他 们的工作可以具体描述如下:令 S表示数据源

42、,K代表可 以从S 中挖掘出的一组重要规则旦令表示及中的个规则子集。 问题可以转化为,我们第丨4页共52页如何通过将转换为S,在只发布前提下仍然可以挖掘出iWifc 。研究人员这里提出了基 于数据隐藏的变换方法,具体地说,该过程是将选定的1值和0值集合进行改变使得敏感规 则的支持度小于某个闽值,该闲值使得发布数据集合效用最大化。这里的效用可以通过被隐 藏的菲敏感规则数量来銜量(数据变换的副作用),随后在19中Eena Dasseni等人将敏感频繁项集的数据清理扩展到了对于敏感规则 的 处理其方法是通过隐藏频繁多项集或者是使得敏感规则的置信度小于用户自定义的闲值来 防止敏感规则通过推理而获得,在

43、文献201中,研究人员在前人的基础上着眼于隐私和信息 披寐之间的平衡,试图将偶然的非敏感规则隐藏和数据变换对交易记录的影电控制到最小。 23.1,2关联规则阻RI在关联规则挖掘中使用较多的方法就是阻隔,即用问号来替换数据项的某个属性值1。 这种将实际值用未知值替换而不是放置一个伪值的方法非常适合某些如医学等方面的具体 应用,在文献22 中,Yucel Saygin等人将阻隔方法引入了关 联规则发掘。由于加入了问号 这个新值,关联规则的支持度和置信度计数的定义都需要做一些改变:最小置信度和支持度 将变为最小置信和支持区间在这种前提下,认为只要某个敏感规则的支持度和置信度低于 中国科学技术大学.士

44、学位论文对应区间的中值,则该规则的私密性没有被侵犯.关于该方法中规则的重构效率细节可以参 考文献231分类规则阻ffi人们注意到在分类规则挖掘的框架中,数据库管理员从保护隐私的角度出发必须阻隔分 类标签值这项工作的主要内容之一就是要确定获得的私密性是否值得所损失的数据功 能性,具体一点的傲法就是,设定一个参数并放置在披阻隔的数值位置上.该 参数代表属性取某可能值的概率,接着计箅初始铜值和阻隔后的信息摘值并将它们两者的差 与决策树产生的规则的置信度减少相比较,从而判断增加的安全性是否值得付出数据效用减 小的代价。 23.2 重构方法近年来研究人员提出了一系列通过扰动数据和在集合水平上重构数据分布

45、来保持隐私 的挖掘技术方法以下文中我们列举了几种并加以介绍, 2J.2.1数字型数据重构从个体记录己被搅动的训练样本中构造分类决策树的问题可以参考文献25,鉴于精确 估计单个数据记录的原始值是不太可能的,该文献中R. Agrawal等人提出了可以精确估计 原始数据值分布的重构方法通过使用重构的分布,可以建立分类判别器,其精度可以与直第15页共52页接从原始数据得来的判别器相娘美。研究人员考虑了两种思路来扭曲属性值,一考 方法;另一种是值变形方法9同时对于原始分布的重构,使用了贝叶斯方法并提出了三个建 立精确决策树的算法,这些算法使用的都是重构的数据分布,在另一篇文献中,D. Agrawal等人

46、对基于贝叶斯的重构方法使用最大期望法(EM, Expectation Maximization)进行了改进:同时证明了 EM算法收敛于槐动数据原始分布的最大 似然估计IW。EM算法在使用于海量数据时,其对于原始数据集合可以提供更佳的鲁棒估计 (robustestimate).同时研究中还表明,当挖掘者通过累积重构分布可以 获得更多知识的时候, 文献251中的隐私性估计实际 要更加低一些。 2J.2.2 二殆分类数据重构中国科学技术大学.士学位论文前人对于分类和二元数据的研究集中在关联规则的背景下尽管使用全局随机化处 理可以保护隐私并重新获得关联规则,但是挖掘所得的规则可以用来窥探隐私漏洞。为了

47、规 避此类风险,研究者们提出了一系列的随机化操作,这些操作可以更加有效的限制隐私的泄 漏同时可以从随机化后的数据集中获取项集的支持度。这两项研究共同点在于都考虑了在使 用随机化技术保护隐私的同时要做到保证数据集合较髙的效用水平。2.4分布式数据挖掘的隐私保护方法分布式环境下考虑隐私保护的数据挖掘方法,按照所应用的数据集的形式可以分为基于 水平分布和基于垂直分布的两种。具体来说,水平分布就是指数据库中的记录被分散放置在 不同的地点,而垂直数据分割表示数据库中属性及其对应的值被拆分存储于不同地点. 2.4.1垂直分布的安全关联规则挖掘在垂直分割的数据库中,每一个物项都被分割至多个站点,在保护隐私的

48、同时,挖掘关 联规则的目的可以通过仅计算其支持度计数达到,如果物项的支持度计数可以安全地通过计 算得出,那么我们只需要比较该计数是否高于闲值便可判断其是否频繁项,而计箅物项集支 持度的一个关键点就是计算各站点上代表物项子集的向量的标量积,如果该标量积可以安全 地计算得出,那么支持度计数也可以进一步计箅得到。计算标量积的代数解决方法中,将等 式中的实际值用随机数掩饰过的值代替丨.在标量积协议中由于有多于k元未知变量且仅 有个等式,根据相关知识这样的方程组有无穷解,也就是说任何一个参与方都无法解出这 样的方程组。换言之,该协议 的安全性是有保障的。 2.4.2水平分布的安全关联规则挖掘中国科学技术

49、大学.士学位论文在水平分割的数据库中,事务记录被拆分为个子集并分配至不同姑点。某物项集的全第16页共52页局支持度计数是每个本地数据库的计数之和,如果某个项集X的全局支持度高于的数据库 总共记录的则称其为全局频繁的.M.Kamarcioglou等人在文献丨30】的基础上提出了一 个安全的分布式关联规则挖掘箅法通过增加一些密码开销来最小化需共享的信息;该 算法还提出了集合安全性和统计安全性准则,从而实现了保护隐私的安全多方计算的思 2AS垂直分布的安全决策树归纳WenliangDu等人研究了从一个垂直分割的数据库中得到决策树 判别器的过程l 32】 ,并基 于两方不经意传输协议,进而构造了两个站点合作建造分类判别器的协议。通过采用非置信 第三方服务器进行标量积运算来保护用户的隐私信息,这里的两方不经意传输协议可以一般 化为n 取 m不经意传输,这样可以进“步适用于多个参与方的情况并提高该方案的效率。 2.4/4水平分布

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 经营企划

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报