1、图书馆视角下的大数据资源共建共享 陈祖琴 蒋勋 苏新宁 南京大学信息管理学院 江苏省数据工程与知识服务重点实验室 摘 要: 鉴于数据资源的保存和利用与图书馆的馆藏建设和利用具有相通之处,针对大数据资源共建共享面临的数据格式不统一、安全及隐私保护等问题,探讨图书馆发展历程中的经验对于大数据资源共建共享的启示,提出围绕“藏”“用”“法”的大数据资源共建共享模式。根据大数据物理分布上相对分散的特点,设计大数据保存及管理机构的分层组织结构和具体服务内容,并建议从数据保存、合理使用、隐私保护三个层面关注大数据立法。关键词: 大数据; 数据共建; 数据共享; 数据立法; 大数据保存; 大数据利用; 作者简
2、介:陈祖琴(1981-),女,博士研究生,研究方向:个性化服务、智能信息处理;作者简介:蒋勋(1980-),男,博士后,讲师,研究方向:知识组织;作者简介:苏新宁(1955-),男,教育部长江学者特聘教授,博士生导师,研究方向:智能信息处理、文献计量评价。收稿日期:2014-11-30基金:国家自然科学基金项目“面向知识服务的知识组织模式与应用研究”(编号:71273126);国家自然科学基金项目“面向知识服务的知识库结构研究”(编号:71303109)Big Data Construction and Sharing from the Perspective of LibraryChen Z
3、uqin Jiang Xun Su Xinning School of Information Management,Nanjing University; Abstract: To solve the problems existing in big data construction and sharing,such as data scheme,data safety and privacy protection,this paper proposes a big data construction and sharing mode with reference to the libra
4、ry in collection construction and utilization. The mode emphasizes constructing and sharing data around “ collection“, “ utilization“ and “ law “ from the perspective of library. Then,it designs the big data management institutions structure and function,and discusses the legislation from data prese
5、rvation,fair use and privacy protection.Keyword: big data data construction data sharing dada legislation big data storage big data utilization; Received: 2014-11-300 引言大数据环境下,数据资源日益增长极大丰富,然而森严的技术壁垒却使得数据共享十分困难有数据的部门没有能力去分析,有分析能力的部门没有数据, 数据资源重复建设问题严重。同时,数据不当使用导致的机构及个人权益受损和隐私泄露问题也相当突出1-2。这些亟待解决的问题,成为数
6、据资源开发者、 管理者、利用者,乃至普通的用户共同关注的焦点,然而单从技术的角度很难去克服。大数据资源的共建共享,从资源属性上来说涉及到数据的存储和分析利用,从社会属性上来说则涉及到相应的立法工作,这和图书馆的馆藏建设、读者服务和相关立法工作具有较一致之处,因此本文借鉴图书馆发展历程中的共建共享经验3,4,从图书馆的视角出发提出围绕“藏”( 大数据存储) 、“用”( 大数据分析利用服务) 、“法”( 大数据立法) 的大数据共建共享模式,以期能为大数据共建共享提供一点有益的参考。1 大数据资源共建共享模式借鉴图书馆发展的经验,图书馆的馆藏建设对应着数据的保存,图书馆的读者服务对应着数据的分析利用
7、服务,图书馆的相关立法工作,比如合理使用、版权保护、读者数据保护等则对应相关的大数据立法工作。基于此,提出围绕“藏”、“用”、“法”的大数据共建共享模式,如图 1 所示。图 1 大数据共建共享模式 下载原图图书馆的馆藏目前可分为纸质馆藏和数字资源馆藏,大数据环境下的数据资源保存工作与数字馆藏的保存更相似; 图书馆的读者服务工作主要可以概括为借阅服务、参考咨询服务、推广服务,大数据环境下则对应数据提供服务、数据分析服务、数据推广服务; 图书馆的相关立法经验,可以作为大数据环境下数据保存、利用和隐私保护相关立法工作的参考。2“藏”本文讨论的大数据的“藏”不关注具体的数据存储技术,相关技术研究已取得
8、了丰富的成果,如文献5-9等都进行了较多的探讨,本文主要关注以共享为目的的大数据存储模式的研究。2. 1 管理机构大数据是在逻辑上高度集中,但是在物理分布上却是分散放置的一种存储模式10,这决定了大数据很难进行集中存放,实现本地利用。鉴于此,建议政府设立专门的大数据管理机构,可以参考高校图书馆联盟大数据管理机构的组成单位和职能11,分层级设置大数据共建共享管理机构及其职能。大数据共建共享管理机构示例如图 2 所示。2. 1. 1 数据部门数据部门,即独立的数据物理存储实体,它们是数据的生产者、加工者、保存者,同时也是数据的利用者。数据部门保存了数据的物理载体数据服务器,承担着具体的数据保存任务
9、,在政府大数据管理机构的指导下,按统一的数据标准提供数据访问接口,是大数据实现共享的基础。2. 1. 2 政府大数据管理机构政府大数据管理机构,是政府为了推动大数据共建共享而成立的具有层级关系的职能部门,按照行政等级和行业划分,负责统筹规划大数据的建设和共享细则,并制定相应的实施规范。 政府大数据管理机构应具有权威性, 可以指导各个具体的数据存储部门按照其制定的数据标准提供数据接口, 以便数据能实现无障碍利用,同时也能制定相应的政策保障数据提供者的合法权益,实现数据的合理使用。2. 2 实现模式大数据环境下数据存储与共享的障碍,主要来自于各个数据部门之间出于技术及利益分配等原因,故意设置技术壁
10、垒使得数据无法共享,以致用户拿不到需要的数据或者出现数据重复建设造成资源浪费的情况。 基于图书馆模式的大数据存储与共享,改变了传统的 “数据部门数据部门”的交流模式,变为“数据部门大数据管理机构数据部门”的模式。在该模式下,数据存储在各个具体的数据部门,但各个数据部门之间不直接打交道,他们只对大数据管理机构负责,向大数据管理机构提供数据,也只向大数据管理机构请求数据。在具体操作上,大数据管理机构可参考图书馆制定 Z39. 50 协议的方式12,制定相应的通信协议供各个数据部门交流数据。图 2 大数据共建共享管理机构示例 下载原图3“用”“藏”是用的基础,“用”是藏的目的。实现了大数据的存储和共
11、享可能的情况下,如何有效地利用数据, 成为政府大数据管理机构需要考虑的问题。相比图书馆读者服务的主要内容借阅服务、参考咨询服务、 推广服务,大数据环境下的数据服务,则主要应包含数据提供服务、数据分析服务、数据推广服务。借鉴图书馆资源共建共享中 CALIS、CASHL 等的服务平台建设经验13-15,提出大数据云服务平台模型,如图 3 所示。图 3 大数据云服务平台模型 下载原图3. 1 数据提供服务数据提供服务是与图书馆的借阅服务相对应的一项服务,其目的是将保存的数据有效地提供给合法的用户,重点在于服务的有效性和用户的合法性。3. 1. 1 有效的服务所谓有效的服务,参考阮冈纳赞关于“读者有其
12、书,书有其读者”的提法,应指用户能获取到需要的数据,数据能找到合适的用户。这要求政府大数据管理机构制定完备的数据保存和共享标准,清楚地界定需要保存的数据,以及数据必须遵循的格式,实现数据的跨平台检索和提供。3. 1. 2 合法的用户所谓合法的用户,对图书馆而言,是指必须是图书馆具有合法身份的读者,比如进入实体馆舍借阅需要有借阅证,在数字图书馆借阅需要通过 IP 或者账户识别等。在大数据共建共享模式下,合法的用户指经政府大数据管理机构认证,授予一定权限的用户,他们可以访问被授权的特定类型的资源。3. 2 数据分析服务数据分析服务对应的是图书馆的参考咨询服务,在大数据共建共享模式下,政府大数据管理
13、机构具有得天独厚的优势,可以获取极其丰富的数据资源。根据用户的请求,政府大数据管理机构可以帮助用户分析需求主题,找寻需要的数据,将符合用户使用权限的数据提供给用户。如果用户请求的数据比较复杂,自己分析能力有限,则在不损害数据提供部门权益的情况下,政府大数据管理机构可以帮助用户对数据进行搜集和分析,并提供给用户一个分析结果。3. 3 数据推广服务相对于图书馆进行推广时采用的“读者培训”“新书通报”“热门图书推荐”等服务,大数据共建共享模式下,政府大数据管理机构应对所辖部门的数据和用户需求比较熟悉,定期组织用户培训和交流,指导用户有效利用数据资源,并将部门之间的数据根据用户需求相互推送,实现个性化
14、服务。4“法”没有规矩不成方圆,立法是实现大数据共建共享的保障。现在大数据共建共享之所以存在种种困难,最大的原因就是没有相应的法律保障体系,目前学者已经针对这一问题开始了相关研究16-17。 纵观图书馆立法问题的发展历程, 图书资料的保存、合理使用和读者隐私保护等相关问题先后被提上了议程。针对文献资源共建共享, 重点关注了联机编目、采购、馆际互借与文献传递等方面的政策18。相应地,大数据共建共享,则需要关注数据的建设和保存、数据的合理使用以及用户隐私保护方面的立法工作。这里的立法是广义的概念,既包括了正式的法律、法规和规章的制定,也包含了非正式的行业、部门等的制度和章程的建立。4. 1 数据建
15、设和保存立法在数据建设立法方面, 主要应关注数据格式的标准化、数据建设分工以及数据建设资金投入保障等方面的工作。标准化的数据格式是实现数据共建共享的前提,需要通过制定相应的行业标准来实现。同时,各个数据单位在大数据共建共享工作中的作用不同,贡献也不同,应通过相应的章程来明确各个单位各自的分工和承担的建设任务。此外,对于大数据建设工作的资金投入保障,也需要相应的法规进行明确。在数据保存立法方面,主要应关注数据保存的完备性和安全性。由于大数据分散在各个物理服务器上,数据保存的完备性只能靠各个具体的数据部门来维护,必须建立相应的法规来对数据保存行为进行强制规范,约束数据部门按照已经制定的数据标准完整
16、地保存数据。同时,针对数据保存的安全性,必须制定具体的法规对数据篡改、删除、盗用等行为进行惩治。4. 2 数据合理使用立法数据的合理使用包含三个方面的内容: 一是明确数据公开与传递的义务,二是设定数据有偿使用的标准,三是划分数据使用的权限。造成数据使用障碍的最大因素就是各个数据部门不愿意对自己的数据进行公开及传递,以致数据无法共享。要实现数据的合理使用,数据公开及传递是前提。应通过立法的方式,明确数据部门各自的数据公开及传递义务,同时制定完备的数据知识产权保护法规。此外,不同于图书馆的公益性质,数据常常事关利益,其共享应建立在有偿使用的基础上,才能协调各方的利益,调动数据部门的积极性。因此,应
17、通过立法的形式,明确数据价值鉴定的机构和标准,制定相应的利益分配准则。同时,数据公开不等于数据滥用,数据部门只能在大数据管理机构的监管下,根据自己具有的权限利用相应的数据。要制定法规对数据部门的权限进行明确和限制,并对越权使用数据的行为制订相应的惩罚性法规。4. 3 用户隐私保护立法用户隐私保护相关的立法工作,应包含对用户隐私数据的认定以及对侵犯隐私数据行为的惩罚两方面的内容。用户隐私数据的认定主要是从立法层面确定什么样的数据应该被视为用户的隐私,以及该数据的私密程度。用户隐私数据侵犯行为的惩罚则具体制定相应违法行为的惩罚力度, 明确侵犯用户隐私数据的犯罪成本,以达到震慑作用。技术的发展导致了
18、数据获取途径的增多,大数据环境下,获取用户隐私数据的可能极大地增强,诚如 SAS 公司客户智能咨询业务总监艾里克 桑多萨姆所言19,大数据环境下用户的隐私保护只能靠立法。4. 4 大数据共建共享立法体系根据上述大数据共建共享涉及的法律、法规、规章以及相应的制度和章程等,建议从立法的角度,建立法规层面和制度层面的大数据共建共享法律章程体系,如图 4 所示。图 4 大数据共建共享法律章程体系( 建议) 下载原图法律、法规、规章层面的大数据立法工作负责对大数据的建设和保存、合理使用、用户隐私保护进行政府层面的强制规范; 制度、章程层面的立法工作则根据大数据共建共享工作涉及的具体内容,进行微观层面的限制和引导。5 结束语鉴于数据资源的共建共享和文献资源的共建共享具有的某些相通性,本文借鉴了图书馆发展的经验来对大数据环境下的数据资源共建共享进行探讨,并基于图书馆馆藏建设和利用服务的经验,设计了大数据共建共享的模式,从 “藏”“用”“法”的层面对大数据的保存、共享和利用,以及立法方面,提出了一些建议。 由于本文主要是做了理论性的探讨,所提模式的有效性还有待实践的进一步检验,这也是我们下一步希望推进的工作。