1、Computer西画we砌g and Applications计算机工程与应用 2010,46(8) 133改进的隐私保护关联规则挖掘算法沈中林,崔建国SHEN Zhong-lin,CUI Jian-guo中国民航大学计算机学院,天津300300Cofiege of Computer Science,Civil Aviation University of China,Ti舳jin 300300,ChinaEmail:zlshenl63163tomSI-IEN Zhong-lin。CUI Jian-guoImproved algorithm of association rule mining
2、 in privacy preservingComputer Engineer-ing and Applications,2010,46(8):133-136Abstract:The knowledge which is potential and hidden behind lots of data can be mined in meriB of data mining technologyand part of the knowledge may infringe personal privacy,then privacy reserving in data mining is stud
3、iedFirstly,a privacyreserving association rule mining algorithm called MASK which is presented by Rizvi is analyzedSecondly,MASK algorithm isimproved by divide-nad-conquer slrategyTime complexity analysis and experiment result show that the improvement of MASKalgorithm is effectiveKey words:associat
4、ion rule;privacy preserving;divide-and-conquer strategy摘要:数据挖掘技术可以从收集到的大量数据集中挖掘出潜在的知识,这就可能把涉及到个人隐私的信息挖掘出来,从而产生了隐私保护下的数据挖掘。首先分析了国外学者Rizvi提出的隐私保护关联规则挖掘算法MASK,然后使用分治策略对MASK进行了改进。时间复杂度分析争实验结果均表明,对MASK算法的改进是有效的。关键词:关联规则;隐私保护;分治策略DOI:103778jissn10028331201008038 文章编号:10028331(2010)08加13304 文献标识码:A 中图分类号:T
5、P3011引言数据挖掘是在大量的数据中挖掘出潜在的、有用的知识的过程【11。数据挖掘的恰当使用会挖掘出切实有用的知识,但是如果被恶意使用的话,就会泄露用户的隐私。般来说,在数据挖掘领域,隐私被划分为两类:一类隐私是原始数据本身具有的。由于传统的数据挖掘技术是基于未加密过的原始数据来进行的,也就是说必须将包含个人或企业隐私的原始数据交给数据挖掘者才能挖掘出有用的知识,如个人的家庭电话、银行账号、财产状况、信用等级等信息,这些信息一旦泄露的话,极可能会xC+A的生活产生不良影响。另一类隐私是原始数据所隐含的知识,如某公司优质客户的行为特征等规则,这些知识如果被别有用心的人非法获得,将会严重影响企业
6、的核心竞争力闭。在1995年召开的第一届KDD会议上,隐私保护的数据挖掘就已经成为了一个专门的研究主题。1999年Rakesh Agrawal在KDDl999上作了场精彩的主题演讲,他将隐私保护的数据挖掘作为未来的研究重点之捌。自此以后,隐私保护的数据挖掘越来越得到人们的重视,迅速成为近年来数据挖掘领域研究的热点之一。文章介绍了Rizvi提出的MASK算法。MASK算法的评价标准为挖掘结果的准确度、隐私保护度和运行的隐私保护关联规则挖掘算法MASK,然后使用分治策略提出了改进的时间效率。时间复杂度分析和实验结果均表明,改进的MASK算法在准确度和隐私保护度与原MASK算法相同的前提下,运行时问
7、效率得到了提高。2 MASK算法介绍MASK(Mining Associations with Secrecy Constraints)算法由Rizvi提出闱。假定数据集为超市购物篮数据,所挖掘的数据集可以看作由0和1组成的二维稀疏布尔矩阵,1表示购买某件商品,o表示没有购买。为了保护输入数据集的隐私性,MASK算法采用概率歪曲的方法对原始数据集进行扰乱操作。个o1数据库元组可以看成个随机向量壮J,Xi=0或者1。对置进行歪曲操作得到l,越;XOR i一-,其中i是的补,n是满足伯努利分布的随机变量,分布律为P(萨1)-p,P(泸o)=l-p。由异或计算的特点可知随机向量X经过歪曲操作后,第f
8、个分量置保持原值不变的概率为P,取其相反值的概率为1一P,如表1所示。表1丑。概率变换过程pl叩p1-p基金项日:国家自然科学基金委员会与中国民用航空总局联合资助项目(No60776806)。作者衙介:沈中林(1966-),男,副教授,主要研究方向为数据库与信息工程;崔建国(1984),男,硕士生,主要研究方向为数据挖掘。收稿日期:2008-0918 修回日期:200812-09万方数据134 2010,46(8) Computer Engineering and Applic血ions计算机工程与应用应的矩阵为r,T经过歪曲变换后得到的矩阵为D,歪曲概率为p。r的第i列中1的个数记为c:,0
9、的个数为c:,D中第f列中1的个数为cD。,0的个数为c:。由前面介绍的概率歪曲过程可知:fcT。印+c。T(1-p):Ic:印+c:(1-p):所以cr新1cP (1)其中,脏(二?),=,=,翩比方程组即可由歪曲矩阵D估算出真实矩阵r中1项集的支持度c:。n一项集的真实支持度估算方法跟单项集类似。方法如下:,:盯1矿cD: (2)其中,c:定义为n一项集|的个数,n一项集k表示为n位二进制数的形式,这n位二进制数对应的十进制值为k,C:的定义与c:相同。肘为阶矩阵,矩阵元素膨。f为真实n一项集i概率歪曲为n一项集i的概率。解此方程组可得俨项集在真实矩阵中的支持度。例如对于2一项集,尬:表示
10、项集lO变化为01的概率,即为P2。MASK算i去的实现基于经典A研嘶算法,即先产生频繁1一项集,再产生频繁_|一项集,最后生成强关联规则。与经典Apfiofi算法唯一的不同点是项集的计数问题。Apfiofi算法挖掘的对象是真实数据库,因此只需计算包括候选项集里所有项的元组的个数。例如对于一个表示为l 1形式的2一项集来说,只需要计算包含该2一项集里所有项的元组的个数。MASK算法需要从歪曲后的数据集估算原始真实数据集中项集的支持度,例如对于2一项集,原始项集11歪曲后会变为00、01、lO、11中的种。由估算项集真实支持度的方法可知只有考虑这4种变化情况才可以计算出2一项集的真实支持度。因此
11、,从歪曲数据集估算真实数据集中n一项集的支持度,需要考虑真实n一项集经过歪曲变化后可能产生的2一种情况。MASK算法的流程如图1所示。3基于分制策略的MASK算法的改进MASK算法估算n一项集的真实支持度时需要计算公式(2),该公式的右边是阶数为2“的方阵M求逆后与分阶列向量的乘积。随着候选项集It的增大方阵f的阶数以k=2n的速度在增长。MASK算法求解Md的时间复杂性为D(蠡,),所以随着n的增大求肘。t变得越来越耗时,从而使得MASK的时间效率下降很多。分治策略是算法分析中个重要方法脚,文中改进的MASK算法使用分治策略找出了M-1之间的递归关系,最终将求解矿1转化为矩阵乘积的形式。时间
12、复杂性分析表明改进的MASK算法求M-的时间复杂性仅为D(后)(|=分),跟MASK( 开始 I歪曲矩阵D、歪曲参数P和最小支持度阈值。k=lI产生候选l一项集c,I用公式d:Il=1d估算c。中任意1-项集e,的真实支持度s_(c-)lLl-c。虬(c。),ll后;艮+1lCt=Aprioti_gen(Lt,-I)l用公式e;峨-1估算G中任意一项集c的真实支持度s一(c)iLt=cIl5。(cI)Jl多YN I厶U厶I( 结束 图1 MASK算法流程图算法相比提高了两个数量级,所以时间效率得到了明显提高。另外,对MASK算法的改进主要集中在提高jlft的计算速度,算法的其余部分与原MASK
13、算法完全一致,所以改进的MASK算法不会改变隐私保持度和挖掘结果的准确度。为了估算1,-项集的真实支持度,MASK算法需要计算公式(2),该公式里的概率变换矩阵肘阶数为分,随着项集n的增大,求解M-1很耗时。文中改进了MASK算法,研究出了快速求解M-1的递归方法,从而计算肝1的时间效率得到了显著提高,下面给出具体方法。由公式(2)可知l一项集对应的肘矩阵为2阶的,表示为:蜘P呦1_f p l-p 1mnil1-p P由矩阵M的定义可知2一项集对应的肘矩阵为4阶的,表示为:M芦m劬玎lam1t啪10 t111玎10lmo埘molm,nmlll=m姗m螂mlom娥lm1啪 mllal mlllO
14、 mllll Jf P2 P(1-p)p(1-p) (1-p)2fiD(1-p)P2 (1-p)2 p(1-p)Iv(1-v)(1-p)2 P2 v(1-p)I(1-p)2 P(1-p)P(1-p)P2;rqr=,;DqD万方数据沈中林,崔建国:改进的隐私保护关联规则挖掘算法 2010,46(8) 135一I_l目目一M砷p(。t。二p)毋一一怨斗(MIM:M。1)【(1-p)2 p(1-p);p(1-p)P2 J其中,M。=M1。=(p。二,外1p-:p净(0却P)印尬Mlo=Mo。=眨?如(1-叩p)一2叩,(二坤P)=(1叩,尬所以虬=(巍np-p鸲)M2)3一项集对应的M矩阵为8阶的,
15、满足同样的规律,即烁(。巍q-pp地)M,)依此类推,概率变换矩阵M具有如下的递推关系:如(。盏q磐归一, 因此,只要已知,就可以递推地计算出脶:。由于舰具有递推关系,找出版1的递推关系,首先把舰转化为矩阵相乘的形式如下:脚(。盏qp-p)MH2)=(竺麓1竺艟1(Mm Mo)眦,小(。巍n觑-p)E觇)(M“2 Mm)=Mm Mu2)一pEu凰21觑-p)E垅)。1由分块对角矩阵的性质可知:严)-1=(砣磁)为了求(袅(1p-p如)E嘏)-1,使用高斯消元法,撇下:f p如(1-p)如Em 0咖I(1p)E觇 pEm i 0曰托J一因此伊丑(1叩)如!如0 1缸也 pEm;如E,a一P(1叩
16、)i o I o如昔如奇如j一如00如奇如昔(p1)F毒丁蠡f p如(1-p)E娩一(1-p)peru奇P一1 17瓦丁击21,1(。盎1 b娑)一tp一)E啦pE也j蝇-1=击r疵)(赢Qo)-上f p磁(p_l哆 (4)劫一1(p一1)M-三 p碗7式(4)llp为蚝的逆矩阵珥的递归关系。起初鸠=(二17),鸩-1=(0 17)=者匕。p:1)当概率变换参数p为确定时,腹1唯一确定。因此,可以利用匾1依次递推求得各阶磁1。r由递推公式(4)的表达式可知其时间复杂度如下:双蠡)=双妥)+s(蠡),其中,蠡=2,n=l,2,双J)=及争)拈(七)=及)+s(争)蟠(|)=”簟贰2)心(4)蟠(
17、)+s(i)- 及2)+2s(2)+2芍(2)+:一(罢一)= ,双2)+S(2)(2+22+2“):T(2)+S(2)2(1-2,“-0=双2)+S(2)+(2L2)=及2)+s(2)(蠡2)及2)为生成匾1所需要的时间,s(2)为生成矩阵(:l p-P-1)所需要的时间,这里认为双2)和s(2)的时间复杂度均为O(1),即均看作为常数。所以r(k)-O(k) (5)即使用公式(4)求嗄1的时间复杂度为线性的。假定矩阵的阶数为n,目前计算逆矩阵有三种方法:高斯消元法是求解逆矩阵最常用的方法,其计算时间复杂度为0(,3),MASK算法即是使用这种方法,该方法时间开销巨大。另外还有Strasse
18、n算法和Coppersmith Winogpad算法也用来求解矩阵的逆。Strassen算法由Vilker Strassen于1969年公布,所以以他的名字命名,用其求逆的时间复杂度为0(忍撕),时间效率比高斯消元法有了略微提高。Coppersmith Winograd算法是到目前为止求解矩阵逆速度最快的算法,时间复杂度为D(n跚),比Sa嘲n算法速度更快。文中用公式(4)求概率变换矩阵M-1的时间复杂度仅为0(凡),比求逆矩阵最快的Coppersmith Wino-grad算法都快个数量级以上,所以对MASK算法的改进是非常显著的。这里需要说明下,该文求M-1的时间复杂度之所以为D(n)是因
19、为在MASK算法里的概率变换矩阵M具有非常强的对称性,利用M的这个特殊性质才找到线性求解M-l方法。4实验结果比较MASK算法和改进的MASK算法计算阶概率变换、。J如岩奇万方数据136 2010,46(8) 一 co唧姚:墨型竺!兰竺型垒丝竺竺堕竺竺垫三塞兰皇星-_=自;-_,-_-口=-_-_l一一矩阵肘的逆所需要的时间开销。M的形式只与概率歪曲参数 护度和准确度跟MAsK算法相同。P有关,当p-o8时,n一项集从2变化到9时两种方法计算lfl的时间对比如图2所示。 5结论将分治策略运用到MASK算法,对MASK算法进行了改进,MASK算法估算n一项集真实支持度需要计算C=M-1俨,其中M
20、是阶数为k(k=z,n=1,2,)的概率变换矩阵,计算M-1的时间复杂度为O(k3)。此外,提出了递归计算掣阶M一1的方法,计算M一-的时间复杂度仅为o(k),比原MASK算法计算Ir的时间复杂度提高了两个数量级。实验结果表明改进的MASK算法在保持隐私保护度和准确度与原MASK算法相同的前提下,时间效率得到了提高。图2 p=O,8时MASK和改进的MASK求2nMM-I的时闻对比 参考文献:由图2可知,MASK算法计算2n阶概率变换矩阵M的逆 11 Han Jiawei,K鲫|ber M擞据挖掘:概念与技术【M】范明,孟小峰,译的时间开销比改进的MASK算法大,当,l一项集越大时,改进的北京
21、:机械】业出版社,2001MASK算法计算p的时间性能越好。例如,11项集对应的概 【2】Verykios V S,Bertino E,碱1 N吼8Ls驰e卅砒e。篡m p!acy率变换矩阵M的阶数为2u,改进的MAsK算法可由2阶矩阵preserving data minillg耋1G鼍oD,R8。:,2黑:要17:5肚量,M:1快速递推得到M-2。1 计算肘:-n1的时间仅为0953秒,而 一c三衄眦el(II。wledDi啪二in Databases and Data MiniIlg,MASK算法计算该逆矩阵需要576秒。所以MASK算法运行时 Sa。Di。goCalffornia。19
22、99间效率低下的个重要原因是估算n一项集的支持度时要计算 41 Rizvi S j,I-Iarittm j RMaintaining data privacy in association rule阶概率变换矩阵M的逆,而改进的MASK算法显著提高了 mininsdCFProc of the 28th International Conference on Very Large计算M-的时间开销。改进的MASK算法计算M一1使用快速递Data BasesHong Kong:Morgan Kanfmann Publishers,2002:682-693归的方法,算法其余部分的实现与原MASK算法
23、完全一样,所 51王晓东计算机算法设计与分析【M】3版北京:电子工业出版社,以在时间效率比MASK算法得到了提高的同时,算法的隐私保 2007(上接77页)时问序列Il图7路由有效时闻图时间序列,II图8前缀热度分布由信息量较大,网络的复杂性导致影响域间路由稳定性的事件发生也是难免。事实证明对路由协议的改进是有一定的局限性的,仅靠路由协议自身的机制是不能保证路由系统长期的稳定。该文以实际的数据为分析对象,针对域问路由系统的运行状况进行实时监测,可以较为真实地反映路由状况,能够有效地对路由稳定性状况作出较为准确的分析。参考文献:1】Rekhter Y,Li T,Hares SIETF RFC 4
24、271 A Border Gateway Pro-tolol(BGP-4)isResten:Intemet Society,2006f2】Labovitz C。l以flan G,Jahanian FInternet routing imtabilityfJIEEEACM Tram Networking,1998,6:515-52813】Wu】,Mso Z MFinding a needle in a haystack:Pinpointing signifi-cant BGP routing changes in an IP networkCllPrec of the 2ndSymp 011 N
25、etworked Systems Design and ImplementationBerkeley:USENIX,2005:1-1441 Teixeira RBoxford JA m easuremcnt framework for pinpointing211羞1茁时间序列ll图9前缀可达时问routing changCWroc of ACM SIGCOMM 2004 WorkshopNewYork:ACM。2004:313318【5】梁伟,毕经平Intemet路由关联分析与监测系统设计叨计算机研究与发展,2009,46(6):927-93361 Gri珏in T G,Premore B
26、JAn experiment analysis of BGP oonver-gence timeOProc ICNP2001Washington,DC:IEEE Computer So-ciety Pres$,200153-617】Sun Wei,Mao Z M,Shin K GDifferentiated BGP update process-ing for improved routing eonvergenceClPreceedings of IEEE Inter-national ConferenceNetwork Protocols(ICNP),2006:280-289f8】“Jun
27、,Guidero M,Wu Zhen,et aLBGP routing dynamics revisitedJ】ACM Sigeomm Computer Communication Review2007,37(2):7一1791 Sahoo A,Kant K,Mohapatra PImpreving BGP convergence delayfor lar辩一Bc8le faihresCPreceedinga of the 2006 InternationalConferenceDependable Systems and Networks,2006:228240flOOliveira R V
28、,Izhak-Ratzin R,Zhang Beiehuan,et alMeasure-ment of highly active prefixes in BGPCGLOBECOM05,USA,2005:884-898置富譬h曩七万方数据改进的隐私保护关联规则挖掘算法作者: 沈中林, 崔建国, SHEN Zhong-lin, CUI Jian-guo作者单位: 中国民航大学,计算机学院,天津,300300刊名: 计算机工程与应用英文刊名: COMPUTER ENGINEERING AND APPLICATIONS年,卷(期): 2010,46(8)被引用次数: 0次参考文献(5条)1.Han
29、Jiawei.Kamber M.范明.孟小峰 数据挖掘:概念与技术 20012.Verykios V S.Bertino E.Fovino I N State-of-the-art in privacy preserving data mining 2004(1)3.Agrawal R Data mining:Crossing the Chasm 19994.Rizvi S J.Haritsa J R Maintaining data privacy in association rule mining 20025.王晓东 计算机算法设计与分析 2007相似文献(10条)1.学位论文 接凤华
30、关联规则及数据的隐私保护算法研究 2006数据挖掘目前是数据库研究、开发和应用最活跃的分支之一。不论科学研究还是商业应用,数据挖掘都开始取得了可喜的成果。但与此同时,数据挖掘也面临着许多问题的挑战。其中,数据挖掘的个人隐私与信息安全问题尤其得到关注。误用、滥用数据挖掘可能导致用户数据特别是敏感信息的泄漏,越来越多的人们对此表示担忧,甚至拒绝提供真实的数据。如何在不暴露用户隐私的前提下进行数据挖掘,一直是人们感兴趣的课题。问题的解决对实现新型安全、公平的数据挖掘有着重要的意义。本文在对传统关联规则挖掘技术研究的基础上,给出了保护隐私的新方法。根据保护对象的不同,本文内容大体分为关联规则的隐私保护
31、算法及数据的隐私保护算法研究。算法在保护隐私的同时,尽量保证规则挖掘的精度。基于Stanley RMOliveira等提出的框架,针对IGA算法分组复杂的缺点,提出了基于倒排文件分组的IF-IGA算法;针对MinFIA算法、MaxFIA算法等算法每个敏感规则只删除特定的牺牲项的缺点,提出了平衡牺牲敏感规则各项目的VBA算法,力求在关联规则隐私保护和降低对原有数据集影响之间取得一个平衡。针对现有的一些隐私保护关联规则挖掘算法的不足,提出了一种新的保护原数据集隐私的关联规则挖掘算法,它在保证准确度的同时能够有效地保护原数据集,同时可结合现有的关联规则挖掘算法,使实际操作更有效率。本文还使用人工数据
32、集产生器,提供相应的具体实例的运行验证,证明研究工作中所提出算法的有效性和安全性。2.期刊论文 李时.张成虎.LI Shi.ZHANG Cheng-hu 隐私保护关联规则在可疑金融交易识别中的应用 -兰州大学学报(社会科学版)2007,35(2)有效利用多方数据进行分析,将隐私保护关联规则应用于可疑金融交易识别中,提出了一种新的算法来满足目前用于异构的分布式数据库的隐私保护.该算法能提高反洗钱工作效率,为金融机构反洗钱工作提供一种行之有效的方法.3.学位论文 仲波 基于关联规则的隐私保护算法研究 2007数据挖掘是从大量数据中提取或“挖掘”知识。大多数传统的关联规则挖掘是由一个用户在本地的一个
33、单一的数据库上进行操作。随着计算机网络的不断发展,产生规则的数据往往来自于网络中不同的用户,分布式关联规则挖掘也逐步得到研究。现有的分布式关联规则挖掘需要有一个算法执行中心来收集所有的原始数据,然后执行相应的挖掘算法。有时候用户关心隐私,不愿意提供相应数据或者只提供虚假数据,从而影响了产生规则的有效性。因此,进行数据挖掘同时保护用户的隐私信息不被泄露逐步成为数据挖掘实际应用的发展方向之一。本文在综述了国内外关联规则挖掘研究成果的基础上,讨论了基于关联规则的隐私保护典型算法;并主要关注随机响应技术与关联规则的结合,给出随机响应技术中影响隐藏性的变换概率目与挖掘算法准确性之间的关系式;计算表明,从
34、10000个以上事务的数据集中,选取样本的数据量超过数据集10产生的关系式,其相对误差,即用该关系式算出变换概率目代入基于随机响应技术的挖掘算法产生的误差与希望达到的误差相比,不超过6;并用大量计算验证在数据集规模不同的情况下,关系式准确率能达到应用的要求,表明该挖掘算法能适用于实际问题的需要。本文还提出了将随机响应技术应用于保护隐私的多维关联规则挖掘中,设计了在伪装的数据集上进行挖掘的算法,分析了算法的安全性与复杂度,并通过实验表明,该算法在伪装后的数据集上挖掘出来的规则与原规则相比,相对误差不超过5。4.期刊论文 黄高琴.HUANG Gao-qin 基于隐私保护的分布式关联规则数据挖掘 -
35、微计算机信息2009,25(9)为了提高对隐私数据的保护程度和挖掘结果的准确性,提出一种有效的隐私保护分布式关联规则挖掘算法.理论分析表明本文提出的隐私保护关联规则挖掘方法具有很好的隐私性和高效性.5.学位论文 张长星 隐私保护数据挖掘算法的研究 2009近年来,数据挖掘在商业决策、科学探索以及医学研究等诸多领域得到了广泛应用。然而,数据挖掘技术在给我们带来巨大利益的同时,也会不可避免的产生隐私泄露问题。尤其随着人们对隐私权关注度的不断提高,数据挖掘在实现过程中遇到了层层阻碍。隐私保护数据挖掘技术正是在此背景下产生的,它能够在保证敏感数据以及敏感规则安全的前提下,挖掘出比较准确的结果,有效的解
36、决了数据挖掘与隐私保护之间的矛盾。 本文首先总结归纳现阶段隐私保护数据挖掘算法的研究现状,然后针对目前应用最广泛的关联规则隐私保护数据挖掘进行了相关研究: 首先分析了数据集中分布的挖掘算法MASK(Mining Associations with SecrecyKonstraints),该算法通过数据干扰和分布重构实现了隐私保护的关联规则挖掘,但是基于扭曲数据库重构项集原始支持度呈现指数复杂度,严重影响了算法的运行效率。针对这一不足,基于集合原理提出了一种改进的优化算法,消除了指数复杂度。最后通过实验证明了改进算法与原MASK算法相比具有更好的性能。 分布式数据挖掘是一个动态的过程。具体来说有
37、两个方面:(1)一些新的机构的加入;(2)原有数据库随着时间的推移,将会增加大量新的记录,同时部分原有记录可能已经被更新,甚至已经被删除。这样原有的关联规则便会过时,已经不能准确反映当前数据库所隐含的一些规则或模式,因此需要进行更新。实现更新最基本的方法是重新挖掘关联规则,但是这种做法代价高昂。 针对分布式环境下关联规则的增量更新问题,提出了一个新的算法PPIUDAR,该算法通过利用原有的关联规则,高效的实现了关联规则的增量更新。由于算法中应用了相关的安全多方计算技术,充分保证了各个站点的隐私。最后,通过实验分析,证明该算法切实可行。6.期刊论文 沈中林.崔建国 隐私保护下关联规则挖掘方法 -
38、中国民航大学学报2007,25(z1)从输入隐私保护和输出隐私保护2个角度介绍了隐私保护关联规则挖掘的有效方法.输入隐私保护采用数据扭曲的策略,输出隐私保护采用修改敏感事务值的策略.使用这2种策略的挖掘方法在取得很好隐私性同时,挖掘到的关联规则准确率也很好.7.学位论文 葛伟平 隐私保护的数据挖掘 2005本文首先结合数据分布方式、数据修改方式、数据挖掘算法、数据或规则保护和隐私保护技术五个角度,对当前流行的隐私保护数据挖掘方法作了一个深入浅出的分析和介绍。接着提出了一种新颖的隐私保护分类挖掘的算法。算法的第一部分着重于如何通过变换数据来保护隐私:首先提出了“单属性转移概率矩阵”的概念;接下来
39、提出了“多个分裂属性联合转移概率矩阵”来表达多个分裂属性的联合变换概率,同时也介绍了计算其值的方法和计算其逆矩阵的简便方法(即等于“单属性转移概率矩阵”逆的联合);然后描述了通过“单属性转移概率矩阵”来变换原始数据的数据变换方法。算法的第二部分着重于如何从变换后的数据中恢复联合属性值的支持计数来产生判定树:首先推导了一个公式来从变换后的数据中恢复联合属性值的支持计数;接下来推导了另外一个公式,以便根据联合属性值的支持计数来计算Gain,进而选择最佳分裂属性和分裂点;最后给出了基于隐私保护的判定树产生算法-PPCART。另外本文也介绍了隐私保护程度的量化表示方法,以及给出了一个网上调研的例子来说
40、明本算法的应用。然后又提出了一种新颖的全局关联规则隐私保护挖掘算法:先分别运用“项集转移概率矩阵”对各个分布站点的数据进行变换;然后提出了一种方法来恢复项集的全局支持计数,以便找出全局频繁项,进而找出全局关联规则。本文最后是对工作的总结及未来工作的展望,将在转移概率矩阵的取值、隐私保护程度度量标准的标准化、适合多种数据集、加密部分数据、OLAP领域的隐私保护分析和最终形成一个整体的隐私保护数据分析和挖掘模型上作深入的研究。8.期刊论文 张瑞.郑诚.陈娟娟.ZHANG Rui.ZHENG Cheng.CHEN Juan-juan 一种简单的基于隐私保护的关联规则挖掘方法 -计算机工程与应用200
41、8,44(28)为了提高对隐私数据的保护程度和挖掘结果的准确性,提出一种有效的隐私保护关联规则挖掘方法.针对关联规则挖掘中需预先给出最小支持度和最小置信度这一条件,提出了一种简单的事务数据库中事务的处理方法,即隐藏那些包含敏感项目的关联规则的方法,对相关事务作处理.达到隐藏包含敏感项目的关联规则的目的.理论分析和实验结果均表明,基于事务处理的隐私保护关联规则挖掘方法具有很好的隐私性、简单性和适用性.9.学位论文 陈芸 隐私保护关联规则挖掘 2006数据挖掘研究如何从大量数据中发现潜在模式及趋势,在科学研究、医学研究及商业等领域,正得到越来越广泛的应用,具有很大的发展潜力。由于数据挖掘是发现数据
42、中不容易发现的模式和规律,如果利用不当,可能对隐私和信息安全构成威胁。因此,如何在保证隐私的情况下挖掘出有用的信息是近年来数据挖掘领域研究的热点之一。本文首先结合数据分布方式、隐私保护目标和隐私保护技术和隐私保护的对象等多个角度,对当前流行的隐私保护关联规则挖掘方法进行了深入浅出的分析和介绍。其次,论文主要针对隐私保护关联规则挖掘提出相关的两个算法:(1)从隐私保护对象为原始数据集的角度出发,总结Rizvid提出的的MASK算法优缺点的基础上,提出了一个基于多参数随机扰动的布尔规则挖掘算法DMASK。该算法同MASK算法相比,能够按照用户对隐私关注不同设置不同的扰动参数,从而降低了隐私泄露的可
43、能性。通过合理的参数设置同时满足挖掘结果的准确度和隐私保护度。另外,我们利用集合原理对算法实行优化,并且严格控制数据集密度的变化,消除了由于扰动引起的额外计算,从而大大提高程序运行效率。我们分别在人工数据集(IBMSyntheticDataset)和实际数据集(BMS-WebView-1)运行该算法,实验结果表明DMASK算法在运行时间上比Aprior减慢少于5倍,同时能够保证隐私保护度在70以上,挖掘结果的准确度在90以上。(2)从隐私保护对象为敏感模式的角度出发,针对Oliverira提出的SWA算法中容易因推导而产生隐私泄露的不足,提出了一个新颖算法RWA。首先根据敏感模式和非敏感模式之
44、间的关系建立扰动矩阵,设置矩阵中合适的值,并将原事务数据集与扰动矩阵相乘,生成一个能够阻止向前推导攻击扰动数据集。另外,我们使用不同的扰动参数来避免敏感规则被恢复以及降低非敏感规则被隐藏的机率,更能避免入侵者向前推导所引起的隐私泄露。最后我们利用实验方法,通过与SWA算法在敏感模式的隐藏、非敏感规则的丢失以及运行时间等多个性能指标上进行比较,结果表明我们所提出的算法相对于SWA具有良好的性能同时具有更安全的保护.10.期刊论文 张鹏.童云海.唐世渭.杨冬青.马秀莉.ZHANG Peng.TONG Yun-Hai.TANG Shi-Wei.YANG Dong-Qing.MAXiu-Li 一种有效
45、的隐私保护关联规则挖掘方法 -软件学报2006,17(8)隐私保护是当前数据挖掘领域中一个十分重要的研究问题,其目标是要在不精确访问真实原始数据的条件下,得到准确的模型和分析结果.为了提高对隐私数据的保护程度和挖掘结果的准确性,提出一种有效的隐私保护关联规则挖掘方法.首先将数据干扰和查询限制这两种隐私保护的基本策略相结合,提出了一种新的数据随机处理方法,即部分隐藏的随机化回答(randomized response with partial hiding,简称RRPH)方法,以对原始数据进行变换和隐藏.然后以此为基础,针对经过RRPH方法处理后的数据,给出了一种简单而又高效的频繁项集生成算法,进而实现了隐私保护的关联规则挖掘.理论分析和实验结果均表明,基于RRPH的隐私保护关联规则挖掘方法具有很好的隐私性、准确性、高效性和适用性.本文链接:http:/