1、大数据时代的个人隐私保护 刘雅辉 张铁赢 靳小龙 程学旗 中国科学院计算技术研究所 石河子大学 摘 要: 随着信息技术的发展,以 Web2.0 技术为基础的博客、微博、社交网络等新兴服务和物联网以前所未有的发展速度产生了类型繁多的数据,而云计算为数据的存储提供了基础平台,这一切造就了大数据时代的正式到来.大数据中蕴藏着巨大的价值,是企业的宝贵财富.但大数据同时也带来了巨大的挑战,个人隐私保护问题就是其中之一.迅速发展的互联网已经成为人们生活中不可或缺的一部分,人们在网络上留下了许多数据足迹,这些数据足迹具有累积性和关联性,将多处数据足迹聚集在一起,就可以发现个人的隐私信息.恶意分子利用这些信息
2、进行欺诈等行为,给个人的生活带来了许多麻烦或经济损失,因此大数据的个人隐私问题引起了工业界和学术界的广泛关注.首先介绍了大数据时代个人隐私保护的相关概念,讨论了个人隐私保护面临的挑战和研究问题;然后从数据层、应用层以及数据展示层叙述了个人隐私保护所使用的技术,探讨了个人隐私保护的相关法律以及行业规范的几个重要方面;最后提出了大数据个人隐私保护的进一步研究方向.关键词: 个人隐私保护; 个人隐私问题; 隐私保护技术; 大数据隐私; 大数据; 作者简介:刘雅辉 作者简介:Zhang Tieying, born in 1982. PhD, assistant professor.His resear
3、ch interests include computer networks, distributed computing,peer-to-peer system,multimedia networking,and network security. 作者简介:Jin Xiaolong,born in 1976. Associate professor,PhD supervisor.His research interests include social computing,network performance modelling and evaluation. 作者简介:Cheng Xu
4、eqi,born in 1971.Professor, PhD supervisor. His research interests include information retrieval, social computing,and distributed computing.收稿日期:2013-10-12基金:国家“九七三”重点基础研究发展计划基金项目(2012CB316303,2013CB329602)Personal Privacy Protection in the Era of Big DataLiu Yahui Zhang Tieying Jin Xiaolong Cheng
5、Xueqi Institute of Computing Technology,Chinese Academy of Sciences; Abstract: With the development of information technology,emerging services based on Web2.0technologies such as blog,microblog,social networks,and the Internet of things produce various types of data at an unprecedented rate,while c
6、loud computing provides a basic storage infrastructure for big data.All of these lead to the arrival of the big data era.Big data contains great value.Data become the most valuable wealth of the enterprise,but big data also brings grand challenges.Personal privacy protection is one of the major chal
7、lenges of big data.People on the Internet leave many data footprint with cumulativity and relevance.Personal privacy information can be found by gathering data footprint in together.Malicious people use this information for fraud.It brings many trouble or economic loss to personal life.Therefore,the
8、 issue of personal privacy has caused extensive concern of the industry and academia.However,there is little work on the protection of personal privacy at present.Firstly,the basic concepts of big data privacy protection are introduced,and the challenges and research on personal privacy concern are
9、discussed.Secondly,the related technology of privacy protection is described from the data layer,application layer and data display layer.Thirdly,several important aspects of the personal privacy laws and industry standards are probed in the era of big data.Finally,the further research direction of
10、personal privacy protection is put forward.Keyword: personal privacy protection; personal privacy concern; privacy protection technology; big data privacy; big data; Received: 2013-10-12计算机的出现促使各种事务数字化,如过去不方便存储、分析和共享的很多纸质材料都被数字化,计算机逐渐成为不可替代的数据处理工具.随着数据量的不断增加,数据库应运而生,数据库技术的迅速发展以及数据库管理系统的广泛应用使人们积累的数据越
11、来越多,人们迫切需要将这些数据转换成有用的知识并揭示其潜在的价值,广泛地用于各种应用.数据挖掘就是为顺应这种需要而发展起来的数据处理技术,它通过分析企业的数据作出归纳性的推理,从中挖掘出潜在的价值,帮助决策者调整策略,减少风险,作出正确的决策.美国 1991 年出现了商用互联网服务,商业机构一踏入互联网就发现了它在通信、资料检索、客户服务等方面的巨大潜力.于是,其势一发不可收拾,迎来了互联网发展史上一个新的飞跃,而以 Web 技术为代表的信息发布系统成为互联网的主要应用.Web2.0 技术的出现使得博客和社会网络迅速发展,产生了大量的文字、图像、视频等非结构化数据,随之又迎来了云计算,为用户提
12、供了服务资源的基础平台.2008 年“大数据”这一术语开始在 技术圈内 出现,2008 年末,“大数据”得到部分美国知名计算机科学研究人员的认可,由此大数据时代拉开了序幕.大数据成为直接影响国家、社会稳定以及关系到国家安全的战略性问题,带来了许多的科学思考和科学问题,同时也面临着前所未有的挑战1,如现有的 IT 架构以及机器处理和计算能力等.大数据中的大部分数据来源于人和传感器,包括用户上网浏览的资料、社交网络上用户的信息和评论、传感器数据和监视数据等.从浩瀚的半结构或非结构化数据宝藏中获得有价值的信息成为各大企业收集数据的主要目的,大数据的价值不再单纯来源于它的基本用途,而更多源于它的二次利
13、用,以提升企业在市场中的竞争力.因此,数据成为公司有价值的财产、重要的经济投入和新型商业模式的基石.企业所采集的大部分数据包含了个人信息,虽然有的数据表面上并不是个人数据,但经由大数据处理之后就可以追溯到个人.许多企业或组织基于大数据中数据巨大价值的驱动,无限制地收集、处理、使用和发布个人信息,还有许多大企业之间或企业与第三方间共享用户的信息.1)这种用户数据的使用和共享,给企业带来商机的同时,也对个人产生了惊人的影响.如一些购物网站基于用户过去一段时间的购买行为,有针对性的推荐产品或进行个性化广告的推荐;人们在犯罪之前,可以根据他们在互联网上的行为记录,准确地预测犯罪行为的发生.很显然,这些
14、信息是从大数据的分析中获得的.2)这种用户数据的使用和共享给用户带来了风险:个人隐私泄露的频繁发生威胁到个人的生活安全,也成为影响社会治安的主要因素.据北京中关村派出所统计,2012 年全年接报的电信诈骗占立案的 32%,为比例最高的发案类型.诈骗中常采用 6 种手段:1)个人或交友圈信息泄露后的身份冒充,如犯罪分子冒充公检法机关、邮政、电信、银行、社保的工作人员或者亲友等实施诈骗,占诈骗案件总数的 42%;2)购物信息 泄露后冒 充卖家诈 骗;3)电话、QQ 或邮箱等通信方式泄露后的中奖诈骗;4)寻求工作信息泄露后收到的虚假招聘信息;5)交友信息泄露后的网络交友诈骗;6)家庭信息泄露后的绑架
15、诈骗.由此可见,许多企业都在不同程度上泄露了用户的个人信息.3)个人隐私信息的泄露引发了部分用户的恐慌,他们担心隐私数据丢失或者被恶意窃取.一项民意调查报告显示有 72%的人担心他们的在线行为被公司跟踪和分析.因此,大部分人提高了隐私保护意识,而很多企业对用户隐私保护重视不够,导致企业承受了潜在客户的丢失和经济利益损失2.由此可见,大数据时代数据分析存在着多面性,如果对分析结果合理利用不仅能促进企业的发展,也能为用户提供更好的服务,但是,一旦出现不合理的运用会给个人的生活带来很多的烦恼,甚至是威胁.随着企业拥有数据量的不断增加,如果没有很好的策略解决个人隐私信息的保护问题,将会对企业甚至对整个
16、社会造成不良的影响.当前,对个人隐私信息的保护还没有成熟的技术、成文的法律规定或行业标准,个人隐私保护更应该提上日程,实施各种有效措施保证个人隐私的安全,这也是大数据时代所面临的巨大挑战之一.本文介绍了个人隐私的基本概念,讨论了大数据时代个人隐私面临的严峻挑战和研究问题,综述了个人隐私的保护技术,提出了企业或组织应遵守的法律和行业规范,最后探索了个人隐私保护的进一步研究方向.1 个人隐私的概念及在大数据中面临的挑战1.1 个人隐私的相关概念1)个人隐私的概念隐私的提出 要追溯到 Warren 等人3在 1890 年发表的隐私权,它成为美国传统法律的开创性著作.Warren 和 Brandeis
17、 提出个人 隐私权是 一项独特的权利,应该受到保护,免遭他人对个人生活中想保守秘密细节的无根据发布.隐私的概念在社会科学的所有领域(如哲学、心里学、社会学)已被研究大概100 多年,但是并没有一个明确的既符合时代发展需求又符合实践检验的定义4.隐私的定义主要分为 2 类:基于价值的,把隐私看作一种人权,是社会道德价值体系的一部分,一种商品5,是人和社会的价值(如用户上网时,担心隐私问题的同时,在许多情况下为了达到自己的一些需求,仍然提交他们的个人信息);基于同源的,把隐私关系到个人的思想、感知和认识,看作一种状态(包含 4 种子状态:匿名、隐匿、保留和隐密),一种控制6,表示个人和他人之间的交
18、易控制,其最终的目标是增强自治或减少泄密.基于控制的隐私定义曾经是隐私研究的主流,但是也有研究把控制作为隐私的一个要素,两种研究成为学术界争论的焦点之一.在某种意义上,隐私被描述为多维的、灵活的以及动态的,它随着生活的经验而变化,是机密、秘密、匿名、安全和伦理的概念重叠,同时也依赖特殊的情景(如时间、地点、职业、文化、理由)7,因此不可能定义出通用的隐私概念.隐私保护随着信息技术的演化过程如表 1 所示4:Table 1 The Evolution of Privacy with IT 表 1 隐私随着 IT 的演化过程 下载原表 在特定的情景下,对不同的事,不同的人,隐私是指用户认为是自身敏
19、感的且不愿意公开的信息.Banisar 等人8把个人隐私分为 4 类:1 信息隐私,即个人数据的管理和使用,包括身份证号、银行账号、收入和财产状况、婚姻和家庭成员、医疗档案、消费和需求信息(如购物、买房、车、保险)、网络活动踪迹(如 IP 地址、浏览踪迹、活动内容)等;2 通信隐私,即个人使用各种通信方式和其他人的交流,包括电话、QQ、E-mail、微信等;3 空间隐私,即个人出入的特定空间或区域,包括家庭住址、工作单位以及个人出入的公共场所;4 身体隐私,即保护个人身体的完整性,防止侵入 性操作,如药物测 试等.本文所指的个人隐私是公民个人生活中不愿为他人公开或知悉的个人信息,如用户的身份、
20、轨迹、位置等敏感信息.隐私的范围包括私人信息、私人活动和私人空间.2)个人隐私的泄露互联网已经成为我们生活的一部分,留下了我们访问各大网站的数据足迹.在大数据环境下,这使我们的隐私泄露变得更加容易,我们时刻暴露在“第三只眼”下,如淘宝、亚马逊、京东等各大购物网站都在监视着我们的购物习惯;百度、必应、谷歌等监视我们的查询记录;QQ、微博、电话记录等窃听了我们的社交关系网;监视系统监控着我们的 E-mail、聊天记录、上网记录等;Flash cookies9-10泄露了我们的某些使用习惯或者位置等信息,广告商便跟踪我们的这些信息并推送相关广告等.我们的日常活动也被监视着,如智能手机监视着我们所在位
21、置;工作单位、各大活动场所、商店、小区等监视我们的出入行为.数字传感器技术的发展使得我们日常情况下的新型数据也可以被收集,如基于射频识别(radio frequency identification,RFID)的自动付款系统和车牌识别系统11、可植入的传感器监视病人的健 康12、监视系统 监视着在 家的老人13等.随着传感器技术的不断成熟,各种类型的传感器将会被广泛地用于我们个人或组织.这些系统的特点是交互变得越来越模糊,因此,需要新的机制来管理个人信息和隐私产生的风险14.企业获得了大量的个人数据,他们会利用这些数据挖掘其蕴含的巨大价值,促进企业的发展或者获得更多的经济利益.个人隐私数据的保
22、护面临着内忧外患.内忧主要 指的是企 业内部,Smith 等人15指出企业在处理数据的过程中造成隐私泄露问题有 4 个相关的数据维:信息的收集、误用、二次使用以及未授权访问.此外,业内人可以对外发布数据,无授权地访问或窃取,把个人数据卖给第三方、金融机构或政府机构或者同他们共享数据等4.外患主要指的是外部人为了获取数据,通过系统的漏洞对数据的窃取.同时,研究者们也发现通过财务奖励补偿用户,可以鼓励他们进行信息发布16,同样,如果用户想要获得个性化服务,他们可能会提供更多的个人信息.因此,个人隐私的泄露不仅有企业的责任而且也有个人的因素,而个人隐私的泄露可能影响到个人的情感、身体以及财物等多个方
23、面17.3)不同人对个人隐私的担忧个人的经历和自身特性也影响对隐私问题的不同看待.IBM 的调查18显示:高管们通常都会低估客户对隐私的担忧;更多精通技术和受过教育的受访者更会意识到且更担心潜在的网上隐私的侵犯;Sheehan 等人19发现女人比男人更 担心她们 隐私信息被收集;Culnan20发现年轻人、穷人、接受更少教育的人更少担忧个人隐私的泄露.一些研究者也发现,个人对企业或组织的信任也影响隐私数据的收集.Bowie 等人21发现企业在对待用户隐私方面值得用户信任,将在竞争中更占据优势.用户对企业信任会更少担心他们的隐私被泄露,也更愿意提供个人信息.4)个人隐私与安全的关系Belange
24、r 等人22认为人们对隐私与安全的关系缺乏理解.安全对应个人信息保护问题的 3 个具体目标:1 完整性,确保信息在传输和存储过程中不被篡改;2认证,对用户身份以及数据访问资格的验证;3 保密,要求数据 的使用只 限于被授 权的人.Culnan 等人23认为组织可以安全地存储个人信息,但是可能对随后个人信息的使用作出错误的决定,导致隐私信息泄露的问题.Ackerman24也表示安全对隐私是必要的,但是安全不足够保证随后的使用,不足够将发布的风险最小化,也不足够使用户放心.由此可见,安全并不能保证个人隐私完全受到保护,必须在确保个人信息安全的基础上,加之对个人信息的正确使用才能确保个人隐私不被泄露
25、的可能.1.2 大数据时代个人隐私面临的挑战和研究问题“人、机、物”三元世界在网络空间中交互、融合产生的网络大数据带来了巨大的机遇,同时也给现有的 IT 架构、机器处理以及计算能力带来许多科学问题和极大挑战25.此外,大数据具有数据量大、数据类型繁多、数据生成速度快以及价值密度低等特点,加之个人隐私随着诸多因素动态变动的特性,使得保护大数据时代的个人隐私更是难上加难.下面针对大数据的个人隐私保护,阐述相关的 6 个挑战和研究问题.1)个人隐私保护的范围难以确定.根据以上对个人隐私概念的阐述,隐私的概念是随着信息技术的发展而变化的,同时还要考虑不同人的特性和背景,因此,隐私保护哪些敏感数据很难界
26、定.2)侵犯个人隐私的行为难以认定.侵犯个人隐私的形式复杂多样,对于界定是否构成侵权行为,根据目前的法律却无法判断.用户在网络上通常使用假名,这种匿名方式使受害人很难收集证据并找到真正的侵权人.即使受害人通过网页备份等手段取得证据,但网页总是处于不断更新之中,只要侵权人不予承认也难以发挥证据的效力.因此,如何判定是谁侵犯了个人隐私面临着极大的挑战.3)随着信息和通信技术变得越来越普遍,管理个人隐私信息也变得更加困难.管理个人隐私信息包括个人隐 私信息的 收集、存储、使用 以及发布.1 在收集个人信息时,如何保证收集到的信息在传输过程中维持其完整性;2 在存储个人信息时,使用何种技术保证信息不被
27、窃取或非法访问;3 对于个人信息的使用,应该如何设置严格的访问控制策略,使不同的人见到不同访问级别的数据,同时不增加太多的管理工作量;4 在发布信息时,控制需要发布什么信息以及谁可以在网络上访问发布的信息已经成为企业越来越关注的问题.对于将要发布的数据,如何保证数据不会泄露个人的隐私信息,同时保证数据的效用,而不能为了保护隐私就将所有的数据都加以隐藏,这样则不能体现数据的价值所在.企业的管理者越来越意识到保护个人隐私数据的重要性,因为这些数据将直接关系到企业的利益.然而,如何管理好数据,即保证数据使用效用的同时保护个人隐私,是大数据时代企业面临的巨大挑战之一.4)个人隐私保护的技术挑战.当人们
28、意识到要保护自己的隐私,试图将自己的行为隐藏起来时,却没有想到自己的行为已经在互联网尤其是社交网络的不同的地点产生了许多数据足迹26.这种数据具有累积性和关联性的特点,单个地点的信息可能不会暴露用户的隐私,但是如果将某个人的很多行为从不同的独立地点聚集在一起时,他的隐私就会暴露,因为有关他的信息已经足够多,这种隐性的数据暴露往往是个人无法预知和控制的.从技术层面来说,可以通过数据抽取和集成实现用户隐私的获取,而在现实中通过所谓的“人肉搜索”的方式能更快速、准确地得到结果.服务提供商也可能从授权用户数据的二次使用来获得利益,如目标广告的投放,目前,对数据的二次使用还没有技术障碍.此外,大数据时代
29、数据具有产生速度快的特点,对动态数据需要怎样的处理技术以迅速地构建隐私保护,而不影响到数据的使用效用,面临着技术和人力层面的双重考验.5)为构建良好的大数据生态环境,构建多维的、灵活的个人隐私保护政策面临着极大的挑战.企业为了提高市场竞争力或为用户提供更好的服务,要求用户注册时提供一些包括个人敏感信息的相关数据,而用户为了得到某些服务也依据要求提供了自己的相关数据,但是在数据的传输或使用过程中,欺诈犯罪和个人隐私泄露频繁发生,威胁到了个人的生活安全.用户意识到需要保护自己的隐私时,注册的个人信息不再填写真实的数据,而企业为了提供更好的个性化服务,对用户的相关数据进行分析时,由于用户信息的不真实
30、,造成分析的结果与现实存在很大的偏差,达不到企业想为用户提供服务的效果.在这种情况下,如果没有相关的个人隐私保护政策出台,将引起个人信息不真实与企业提供个性化服务偏差的恶性循环.因此,提出更好的个人隐私保护策略、构建良好的大数据生态环境,是急需解决的问题.6)大数据的数据来源成为研究者的研究障碍.由于大数据的数据量巨大(如 Web数据、科学数据、财政数据、移动对象数据等),因此,只有大公司拥有这样的数据,以至于研究者很难得到数据,加之对个人隐私的动态研究紧密关系到用户的行为过程,而不能建立在假设的基础上,导致许多研究无法进行.总之,大数据的个人隐私保护在人员、管理、生态环境和研究的各个层面上提
31、出了挑战性研究问题.目前,大数据的个人隐私保护研究刚开始起步,各大企业也在摸索着行业规则,谨慎地处理个人的信息.当然本文提出的挑战只是个人隐私保护的几个方面,随着技术和观念的不断成熟和演化,会有更多的挑战等待解决.2 大数据个人隐私保护技术现有的隐私保护技术分为 3 类:数据扰动技术、数据加密技术和数据匿名化技术,而个人隐私数据经历收集、存储和使用过程(使用包括数据的二次使用、数据共享以及数据发布),因此,应该实施数据的多级安全保护,本节结合大数据的特征从数据层、应用层以及数据展示层对个人隐私保护技术和相关的工作进行叙述.2.1 数据层的个人隐私保护通信中的数据可以使用 SSL 协议保证数据的
32、安全,因此,数据层的数据保护主 要是指对数据的存储和管理的保护.保证数据层个人信息的安全是其他一切以数据为基础应用的根本,包括保证数据的机密性、完整性和可用性.本节主要从数据的加密和访问控制两方面叙述保护个人 隐私数据的相关研究.2.1.1 数据加密的个人隐私保护数据加密技术已有悠久历史,进入数字化时代之后,它仍然是计算机系统对敏感信息保护的一种可靠的方法.数据加密的作用是防止入侵者窃取或者篡改重要的数据.按照加密的密钥算法,数据加密可分为对称加密算法和非对称加密算法.1)对称加密算法是加密和解密时使用相同的密钥,主要用于保证数据的机密性.最具有代表性的算法是 20 世纪 70 年代 IBM
33、公司提出的 DES(dataencryption standard)算法;在此基础上又提出了许多 DES 的改进算法,如三重 DES(triple DES)、随机化 DES(RDES)、IDEA(international data encryption algorithm)、广义 DES(generalized DES)、NewDES、Blowfish、FEAL 以及RC5 等.2001 年美国国家标准与技 术研究院 发布高级 加密标准 (advancedencryption standard,AES)取代了 DES,成为对称密钥加密中最流行的算法之一.对称加密算法的优点是计算开销小、加密速
34、度快,适用于少量或海量数据的加密,是目前用于信息加密的主要算法.其缺点是通信双方使用相同的密钥,很难确保双方密钥的安全性;密钥数据量增长时,密钥管理会给用户带来负担;此外,它仅适用于对数据进行加解密处理,提供数据的机密性,它不适合在分布式网络系统中使用,密钥管理困难,且成本较高.2)非对称加密算法也叫公开密钥算法,其加密和解密是相对独立的,使用不同的密钥.它主要用于身份认证、数字签名等信息交换领域.公钥密码体制的算法中最著名 的代表是 RSA,此外还有 背包密码、DSA,McEliece 密码、Diffe_Hellman、Rabin、零知识证明、椭圆曲线、EIGamal 算法等.非对称加密算法
35、的优点是可以适应网络的开放性要求,且密钥管理问题也较为简单,可方便地实现数字签名和验证.其缺点是算法复杂、加密数据的速率较低.然而,无论是对称加密算法还是非对称加密算法都存在密钥泄露的风险.因此,Rivest 在 1989 年开发出 MD2 算法,不需要密钥,引发了杂凑算法(也称 Hash 函数)的研究,即把任意长的输入消息字符串变化成固定长的输出串,不需要密钥,且过程是单向的,不可逆的.比较流行的算法有 MD5,sha1,RIPEMD 以及 Haval 等.杂凑算法不存在密钥保管和分发问题,非常适合在分布式网络系统上使用,但因加密计算复杂,通常只在数据量有限的情形下使用,如广泛应用在注册系统
36、中的口令加密、软件使用期限加密等.数据加密技术能保证最终数据的准确性和安全性,但计算开销比较大,加密并不能防止数据流向外部,因此,加密自身不能完全解决保护数据隐私的问题.数据加密算法作为隐私保护的一项关键技术,大数据时代研究重点将集中在对已有算法的完善;综合使用对称加密算法和非对称加密算法.随着新技术的出现会研究出符合新技术发展的新加密算法.2.1.2 数据库的个人隐私保护数据库仍然是信息系统的主体,如政府数据库存储的大量个人及家庭信息;金融数据库存储的个人财务信息;医疗数据库存储的个人医疗历史信息等,网络上使用的网上银行、邮件信息以及个人注册信息等.大数据时代虽然 MapReduce 技术广
37、泛用于相关的数 据分析,成为数据 库的竞争 者,但是 MapReduce 不能完全替代数据库,它们之间可以相互学习,并且走向集成,形成新生态系统27.数据库不但面临入侵者的威胁,而且也面临内部人员的威胁,主要包括未授权的数据查看、不正确的数据修改以及数据的不可用性28.保证数据库安全要从 4个层面考虑29:物理安全、操作系统安全、DBMS 安全和数据库加密.前 3 层不足以保证数据的机密性,数据库加密能保证敏感信息以密文的形式存在从而受到保护.为了保护数据库中的敏感数据,采取数据加密和访问控制的双重机制.由于数据加密和访问控制的研究工作已经比较成熟,这里只叙述使用加密和访问控制时注意的事项.对
38、数据库中的数据进行加密增强了 DBMS 的安全性,但是对数据操作时的加密和解密操作也带来计算成本的开销,因此应该考虑实际的需求30:1)只加密敏感数据;2)在查询期间,只加密或解密感兴趣的数据;3)基于加密属性值建立索引,会导致一些索引特性的丢失,如范围查询;4)加密的数据库不应该增加太多的存储空间.单纯的数据库加密不能防止各种攻击,还需要通过访问控制来确保数据的安全.访问控制技术起源于 20 世纪 70 年代,为了满足当时系统上共享数据授权访问的需要.访问控制是数据库保护资源的关键策略之一,保证合法用户对资源只能进行经过相应授权的合法操作,其内容包括认证、控制策略实现和安全审计,其中安全审计
39、可以审计用户的行为,并将用户的行为记录在审计日志中,作为一项重要事件追踪的依据,所有的用户都无权修改.数据库的访问控制对象包括数据库、关系、元组以及属性,因此,访问控制级别分为粗粒度(如数据库或表)和细粒度(如元组或属性)两种.访问控制策略包括自主访问控制策略、强制访问控制策略以及基于角色的访问控制策略等.根据大数据对数据访问灵活性的需求,访问控制策略应该根据应用灵活地设置,如非级联权限回收、时间段内的授权以及使用视图支持基于内容的控制策略等.数据加密确保个人的敏感信息以密文的形式存储,即使攻击者获得受保护的数据,也无法读取和使用.对于内部人员使用细粒度的访问控制策略,确保不同的人或群组拥有不
40、同的访问权限.所有人员的操作都必须记录到审计日志中,通过日志可以跟踪到具体人员的操作行为.2.1.3 云存储环境下的个人隐私保护云计算可以看成高速公路,而大数据则是高速公路上的一辆车.云计算为大数据提供了基础存储平台,以一种实惠且容易使用的方式帮助组织存储、管理、共享以及分析大数据.现在许多企业和个人把数据存储在云上,节约了软硬件成本,减轻了本地存储和维护的负担,而且能不限地理位置地随意访问,但是企业和个人失去了对数据的完全控制,云计算也给数据的安全带来了新挑战.个人数据并非以一种完全加密的形式存储在云服务器中,面临着入侵者和内部人员对数据的威胁.因此,存在个人隐私数据泄露的风险,加之云提供商
41、没有完善的审计和监测技术,不能及时检测到所有入侵和违规操作31;提供商可以记录用户的服务需求,并且推断用户的隐私信息;管理员的误用导致丢失了用户的隐私数据;员工为了经济利益或者恶意用户突破机器的安全窃取数据;数据被其他有相同服务且没有被授权的用户的访问等.云计算中通常关系到个人数据的收集、使用、发布、存储、销毁等32.在云计算方面已经有许多关于隐私问题的研究文章:Chen 等人32分析了在云中整个数据生态圈(包括 7 个阶段:数据产生、传输、使用、共享、存储、存档、销毁)的隐私保护问题;Roy 等人33把分散信息流控制和差分隐私保护技术应用到云中的数据产生和计算阶段,并提出一个隐私保护系统 A
42、iravat,该系统在 Map-Reduce 计算过程中可以阻止未经许可的 隐私泄露;Mowbray 等人34提出使用policy-based 模糊处理(obfuscation)的隐私管家来增强隐私保护,即用户的隐私数据以加密的形式被发送到云上,且处理时也是加密的数据,隐私管家对处理过的输出通过消除模糊处理来显示正确的结果,这种方法不仅减小了一些人员从云上窃取数据的风险,也防止了他们对数据未授权的使用;Zhang 等人35针对提供商可能根据用户的需求推断用 户的隐私 信息的问 题,提出噪声 产生策略HPNGS,即根据用户需求历史发生的概率产生需求噪声,使得所有噪声需求和真实需求达到相同的发生概率,这样服务提供商很难辨别哪个是用户的真实需求,从