收藏 分享(赏)

图书馆在科学数据管理中的角色定位研究.doc

上传人:无敌 文档编号:169655 上传时间:2018-03-23 格式:DOC 页数:9 大小:80KB
下载 相关 举报
图书馆在科学数据管理中的角色定位研究.doc_第1页
第1页 / 共9页
图书馆在科学数据管理中的角色定位研究.doc_第2页
第2页 / 共9页
图书馆在科学数据管理中的角色定位研究.doc_第3页
第3页 / 共9页
图书馆在科学数据管理中的角色定位研究.doc_第4页
第4页 / 共9页
图书馆在科学数据管理中的角色定位研究.doc_第5页
第5页 / 共9页
点击查看更多>>
资源描述

1、图书馆在科学数据管理中的角色定位研究 樊俊豪 上海大学图书情报档案系 摘 要: 从整个学术交流体系的角度对科学数据管理中相关主体政府和基金组织、研究者和研究机构、数据中心、数据出版机构、IT 部门的角色进行探析, 明确这些利益主体在科学数据管理中的作用。在此基础上, 结合图书馆的发展诉求, 认为图书馆在科学数据管理中可以扮演如下角色:嵌入式科学数据管理专家、基于过程的科学数据监护机构、科学数据存档与长期保存机构、数据素养的教育机构。关键词: 科学数据; 角色; 图书馆; 作者简介:樊俊豪, 上海大学图书情报档案系硕士研究生, E-mail:。收稿日期:2014-02-07基金:上海大学图书情报

2、档案系学科建设与培育项目“基于科学数据管理的图书馆知识服务实现研究”研究成果之一Study on the Role of Libraries in Scientific Data ManagementFan Junhao Department of Library, Information and Archives, Shanghai University; Abstract: The paper analyses the related bodies such as the government and fund, researcher and research institution, t

3、he data center, data publishing organization and IT department in scientific data management from the perspective of academic communication system, and clears these stakeholders roles in scientific data management. On the basis of discussion above, combined with the development demands of libraries,

4、 it makes clear that the library can play the following roles in scientific data management: embedded scientific data specialist、process- based data curation institution, scientific data archiving and long-term preservation institution, and data literacy education institution.Keyword: scientific dat

5、a role library; Received: 2014-02-071 引 言随着数据驱动时代的到来, 科学数据管理不再仅仅是一些大型科研项目、传统数据密集型学科需要关注的问题, 可以说每个科学数据产出机构都面临着科学数据管理的挑战。但以机构为单位的科学数据管理研究和实践都还处在起始阶段, 其中涉及的主体和主体责任尚不明确。A. Gold 曾讨论了 E-science 环境下图书馆所面临的各种数据管理挑战, 认为首要的问题就是图书馆在数据管理中的角色界定还不明确1。联合信息系 统委员会 ( Joint Intormation SystemsCommittee, JISC ) 和美国国 家科

6、学基 金会 ( NationalScience Foundation, NSF) 发布的报告一致提到图书馆作为传统的信息保存机构能在科学数据管理中发挥非常重要的作用, 但是对以什么样的角色参与、做什么工作都没有具体阐释。美国研究图书馆协会 ( Associationof Research Libraries, ARL) 和 NSF 在 2006 年专门成立了一个工作组探讨图书馆在科学数据管理中的角色, 工作组在提交的报告中指出图书馆需要将他们的工作拓展到对科 学数据的 存储、长期保 存以及监 管 ( curation) 中去2。2006 年 10 月, 在美国国家自然科学基金委和研究图书馆协会

7、联合召开的研讨会上, A.Gold 指出图书馆的角色从数据生命周期的下游 ( 出版后) 向上游 ( 出版前) 拓展和延伸, 并指出: 在上游的研究周期内, 图书馆的关键在于加强与研究团体的合作。在研究初始阶段, 图书馆与研究人员进行密切合作, 以便使其能够在数据管理的原型、架构、标准规范甚至政策的制定中发挥作用3。此外, 也有一些研究者在文章中提到过这个问题, 如李晓辉在文章中提及数据获取服务、数据分析服务等4, 丁培则提及科学数据保存服务以及与科学数据有关的学科服务5。这些分析都是简单地罗列了一些图书馆可以胜任的工作, 没有结合整个学术交流体系中不同利益主体的角色分配展开深入的讨论。本文在阐

8、明科学数据管理中不同主体利益诉求的基础上, 结合既有的实践, 明确提出了图书馆在科学数据管理中可以扮演的角色。2 科学数据管理中的相关角色探析科学数据作为一种学术交流资源, 从产生到共享的过程中会有不同的主体参与进来, 根据利益诉求的不同, 这些主体各自扮演着不同的角色。为了规范科学数据管理活动, 需要认清各个行为主体的位置, 寻求和它们的合作。2. 1 政府和基金组织政府和基金组织作为科技资源的分配主体属于科学数据管理的重要行为主体之一, 是科学数据管理的发起者和重要推手。随着科学数据对于未来社会和国家发展的战略意义逐渐得到重视, 政府和基金组织开始从国家层面来部署科学数据管理的基础设施,

9、组织科学数据管理的相关研究和实践, 制定相关的数据汇交和共享政策来鼓励或强制科学数据进入交流体系, 构建新的数据驱动的经济社会发展范式。概括起来, 政府和基金组织在科学数据管理中的角色主要包括以下 3 种:2. 1. 1 统筹规划科学数据管理是一个国家工程, 需要政府从整体上来统筹管理, 协调各方, 引导发展。日本政府从 1994 年开始投入巨资建设政府部门、大学、科研机构的数据库和全国科研信息网络等以促进科学数据等科研成果能够得到有效的保存和共享6。我国则于 2001 年启动科学数据共享工程。目前已在资源环境、农业、人口与健康、基础与前沿等领域共 24 个部门开展了科学数据共享工作, 并已初

10、具规模。迄今为止, 科学数据共享的理念已经在科技界得到广泛认可, 形成了共享氛围和服务意识, 逐渐改变了我国科学数据封闭独享的局面, 带动了跨行业的数据交换, 在科技界乃至国内外产生了较大的影响。2. 1. 2 政策引导政府和基金组织是科学研究资金的来源, 其有权对项目所产生数据的提交和共享制定约束政策。欧美发达国家已经将数据共享提到战略高度, 美国更是将“完全与开放”的数据共享政策作为一项基本国策: 联邦政府资助的科学数据 ( 即公共性、基础性的国有数据) , 必须在没有歧视的基础上以不超过复制和发行成本的费用被无限制地使用7。一些发达国家的政府机构、大学和科研院所已经制定了很多政策, 希望

11、通过正式的政策规范研究数据的保存活动, 以使研究数据得到多次利用。2. 1. 3 支持相关研究英国的 JISC 在 2004 年专门设立了 DCC ( Data Curation Center) , 这是全球第一个专门从事科学数据管理相关研究和实践探索的机构, 近 10 年来投入了大量资金, 组织了大量的专题研究, 不但产生了一大批诸如科学数据管理政策制定指南、科学数据管理成功案例介绍的理论成果, 同时还为英国高等教育机构的科学数据管理提供数据管理工具以及数据管理能力、技巧培训等支持, 极大地推动了英国国内科学数据管理的研究实践进程。美国的NSF、NIH 作为政府的科研管理机构, 一方面开始强

12、制要求受资助者提交项目的数据, 另一方面, 拿出大量专项资金用于支持科学数据管理的相关研究, 如寻求可持续数据管理办法的 DATANET 计划等8。在政府和基金组织的大力推动和领导下, 目前英美两国的科学数据管理研究和实践都得到了很大的发展。2. 2 研究者和研究机构研究者和研究机构既是科学数据的创造者也是使用者。从科学数据生产者角度来讲, 为了满足政府和基金组织科学数据提交和管理的要求, 他们需要在科研项目开始时就提交相应的科学数据管理计划, 在项目进行中则要按照要求对科学数据进行实时管理, 项目完成后还需要将数据进行规范化处理后提交。同时作为数据生产者, 他们对数据的产生语境和产生流程有着

13、独一无二的认识, 这对后期科学数据的描述、组织、保存并保证能够最终被其他用户所理解、重用是至关重要的。他们还是数据产权的拥有者, 能够对自己的数据做出保留权利或者放弃权利的决定, 获得数据作为科研产出所带来的学术荣誉和经济回报。从数据的使用者角度来看, 驱动科学数据管理和分享的动力不仅仅来自政府和基金组织“从上到下”的压力, 那些通过科学数据重用体验到数据密集型研究推动创新和变革潜力的研究者, 也希望科学数据能够尽可能地被开放、共享, 能够用足够低的成本, 方便地、尽可能多地查找并获取自己需要的科学数据。不管是从生产者角度还是从使用者角度, 随着科学数据逐渐成为科研过程的重要交流内容, 其涉及

14、的一系列工作如科学数据管理、科学数据保存、科学数据查找等, 给已经被寻求基金支持、开展研究、撰写报告、书写论文压得喘不过气来的研究人员提出了更多的挑战。他们迫切需要科研支持机构如图书馆、IT部门的支持。2. 3 数据中心在整个科学界逐渐意识到科学数据的价值之前, 已经有大量的数据保存在国家档案部门和政府数据中心。这些数据中心大多是政府主导建立的公益性质的数据整理和服务机构, 通过汇集一些国家基金支持的重大课题、专题研究的数据成果, 为研究的可持续发展提供数据支持。现有的各种学科数据中心是科学数据管理的先行者, 目前世界范围内已产生了大量的数据中心, 主要针对那些数据密集型学科如分子学、天文学、

15、GIS、气候学等, 以实现学科领域内科学数据的积累和重用。对于这些学科来讲, 正如论文对于人文学科的重要性一样, 数据一直是他们研究成果的主要部分, 是业内交流的主要内容。可以说, 在数据出版之前, 数据中心是相关学科实现数据保存和数据共享的重要机构。现在, 这些数据中心为机构科学数据管理积累了大量的经验, 如领域本体的构建, 数据组织方案, 数据服务平台的构建策略等, 同时这些数据中心作为学科领域已经存在的、成熟的科学数据管理机构在新时期将会继续作为科学数据管理的重要组成部分, 是实现机构科学数据管理的现实基础, 可以直接或者间接地加以整合利用。而图书馆和数据中心在数据保存和数据管理方面的合

16、作如数据格式的协商、机构数据的提交等对于建立科学数据可持续管理是至关重要的。2. 4 数据出版机构数据出版是学术登记和学术价值鉴定以及数据生产者的劳动成果得到学术界和社会承认的关键环节。它主要表现为科学研究人员学术优先权的确立、学术成果在学术层面的认可情况以及在政策层面的认可情况。数据出版机构是将科学数据整合进学术记录, 从个人使用范畴进入学术团体, 甚至整个学术界的核心环节。目前越来越多的学术期刊建议或者要求, 研究数据必须作为论文发表条件的一部分, 保存在可被其他人获取的机构库中。而且一些数据出版机构不但制作数据管理、发现的工具, 还致力于构建同行评议的数据杂志。数据从出版到被引用, 既可

17、以使数据生产者付出的劳动得到认可和回报, 也可以为研究者提供经过同行评审的高质量的科学数据1。最终推动科学数据进入学术评价体系和学术交流体系, 促进科学数据作为科研成果发布和重用的常态化。除了数据出版对科学数据管理的推动作用外, 我们还要意识到, 出版机构出版数据更大程度上受科学数据所蕴含的巨大商业价值所驱动。目前, 许多出版商已经在积极“抓取”科研文献背后的科学数据, 构建科学数据的商业经营模式, 这对于正处在“期刊危机”中的图书馆和研究人员来说并不是个好消息, 因此在新的数据出版模式尚未形成时, 图书馆必须尽快行动, 从源头开始, 与科学家和科研机构合作, 与科研资助和管理部门联合, 一起

18、构思和制定新的出版标准和系统, 建立公共、开放、可靠和持续的科学数据资源基础设施, 避免重蹈学术期刊成为出版商敛财工具的覆辙9。2. 5 机构的 IT 部门随着 E-science 和 E-research 的形成, IT 部门作为机构科研基础设施的建设者, 在机构内的重要性越来越明显。面对海量科学数据的管理, IT 部门不但需要提供大规模、高性能计算的能力, 还需要海量数据存储和处理的能力以及便于研究人员交流和无缝协作的能力。在进行科学数据管理实践时, 还需要开发和实施与之有关的技术, 包括数据获取、存档、安全、完整性验证、存储、访问、分析、传播、迁移、交换等。其他的诸如软件开发、技能培训以

19、及网络安全与认证等工作也都在 IT 部门的职责范围之内10。2. 6 图书馆随着科学数据作为学术研究成果在学术交流中的重要性逐渐提升, 既有的学术交流体系发生了很大的变革。这其中包括出现了新的学术交流主体 ( 如数据中心) 且学术交流的传统流程发生变化等。这对图书馆的影响是巨大的, 尤其是在大数据时代, 如果不能在新的学术交流体系中占据一席之地, 那么图书馆的可持续发展将令人担忧。图书馆需要考虑在众多主体中的地位是建立一个图书馆驱动的学术交流体系, 还是一个第三方驱动的学术交流体系 ( 数据中心、数据出版者等) 。从宏观上讲, 图书馆将会成为全国分布式数据网络的一部分, 成为科学数据管理基础设

20、施的一部分。从微观上讲, 图书馆是机构科学数据管理的重要参与者, 要满足机构研究人员科学数据管理的需求, 推动该机构科学数据管理的研究和实践。目前数据中心已经在科学数据管理方面形成了规模, 建立了完善的数据采集、管理、服务体系。但是通过调查笔者发现, 数据中心主要面对那些“大数据”。所谓“大数据”, 是指通过工业化和标准化的数据和元数据的生产过程产生、有大量的研究者参与其中、并通过数据中心建立起了合适的学术承认体系的科学数据。与“大数据”相对应, 存在一些“长尾数据” ( long tail data) 。这些数据主要产生自一些小学科或者新兴学科, 没有统一的数据和元数据生产方法, 有相对较少

21、的研究者参与其中, 没有与之相对应的数据中心对其进行管理, 但是这部分数据的重要性不一定小, 同样需要对其进行妥善管理和长期保存。笔者认为图书馆可以通过构建一个可以处理多学科数据的通用系统, 承担这部分数据的管理工作。3 科学数据管理中图书馆的角色定位图书馆作为传统而专业的资源组织、管理、共享和长期保存机构, 已经积累了许多有效的理论方法, 并且具备相应的服务平台。随着数字时代图书馆的定位和服务逐渐发生变化, 科学数据管理的出现为图书馆特别是高校以及专业图书馆提供了一个转型方向。3. 1 嵌入式科学数据管理专家图书馆在数据管理方面的角色定位与其他科学数据管理机构相比, 其优势之一是, 能够参与

22、到数据生命周期的上游数据生产阶段, 对该阶段产生的数据进行管理。从宏观角度看, 图书馆需要与机构领导以及相关部门共同制定本机构的数据提交政策、数据管理方案、数据长期保存规划等, 明确机构的阶段和长期的科学数据管理计划, 构建数据管理架构和基础设施。在微观上, 正如上文提到的, 研究人员和研究机构希望图书馆能够协助他们完成数据管理工作, 因此在科学数据产生之前, 图书馆就需要参与到研究人员的项目中去, 和研究人员一起对项目中将会产生的数据类型、数据量等进行评估, 帮助他们拟定和提交项目数据管理计划, 确定合适的元数据方案、数据筛选机制等, 量身打造数据保存策略。在数据产生前的上游研究周期内, 图

23、书馆的关键作用在于定位其与研究团体的合作关系。通过从研究初始阶段就与研究人员的密切合作, 确保后续工作的开展3。目前, 普渡大学图书馆和伊利诺伊大学图书情报学院合作开展的 Data CurationProfiles 项目的目的就在于通过访问调查形式, 探明各研究领域内包括数据共享者、科研各阶段文件格式、数据价值和用途、共享途径、期望保存年限、产权归属等在内的科研数据基本情况, 为后期科学数据管理工作的开展奠定基础11。另外, 在科研过程中, 图书馆还可以为研究人员提供科研过程中的支持服务, 如帮助用户选择和获取科学数据、为用户提供资料处理和可视化工具、发布数据相关信息、提供指导和技术支持等12

24、。3. 2 基于过程的科学数据监护机构科学数据的管理有别于传统出版物的管理。传统出版物的管理是一种针对最终科研成果内容的管理 ( content curation) , 是一种静态的管理, 只需对其建立索引, 以方便用户查找和使用即可; 科学数据管理是一种动态的管理, 是贯穿科学数据整个生命周期的管理。这是由于原生的科学数据并不能像传统的科研成果论文、图书一样被直接拿来阅读和使用, 只有通过知识化的过程加以完善, 形成数据产品, 其才能被理解、共享和重用。这种基于过程的科学数据管理目前国外有专门的名词来表达data curation, JISC 在 2004 年的相关报告中对其做了专门解释:

25、data curation 是为确保数据当前使用目的, 并能用于未来再发现及再利用, 从数据产生伊始即对其进行管理和完善的活动。对于动态数据集而言, data curation 意味着需要进行持续性补充和更新, 以使数据符合用户需求。国内目前对 data curation 的翻译主要有数据监护、数据策管、数据策展等几种, 笔者在此使用数据监护。数据监护工作是科学数据管理工作的重要环节, 其工作内容主要包括: 科学数据格式转换、内容 ( 包括元数据) 标准的制定以及质量评估和控制等, 确定所有数据的提交和更新符合所制定的标准; 提供与其他数据资源和文献资源基于内容的关联服务13; 创建更多的动态

26、数据库, 来推动数据出版前的交流, 构建支持合作科研的环境等。近年来国外图书馆在数据监护服务研究方面十分积极, 已开展了大量的实践工作。这种积极性源于图书馆是传统而专业的资源组织、管理、共享和长期保存机构, 已经积累了许多有效的理论方法, 并且具备相应的服务平台5。3. 3 科学数据存档、长期保存机构首先, 由于科学数据的动态性, 从科学研究开始产生科学数据到科学研究结束提交最终的科学数据, 这个过程中将会产生大量的中间数据, 这部分数据是暂时性的、动态的, 是科学研究可持续进行的保证, 有些数据在科研结束后经过评估有可能具有长期保存价值, 因此对这部分数据需要暂时性地进行维护和存档。其次,

27、在整个科研过程结束后, 一部分科学数据作为最终的科研成果需要得到长期保存。而且这些数据在存档和长期保存过程中都需要相应主体对其进行维护并保证其能够被发现和获得。国际图书 馆协会与 机构联合 会 ( InternationalFederation of Library Associations and Institutions, 简称 IFLA ) 与国际出 版商协会 ( International PublishersAssociation, 简称 IPA) 在 2002 年联合发表的永久保存世界记忆: 关于保存数字化信息的联合声明中明确规定: “出版者应该担负短期保存的责任, 长期保存的责任

28、应由图书馆承担”。笔者认为科学数据作为人类智慧结晶的一部分, 理应被纳入图书馆这一传统保存机构的保存范围。而且如果图书馆不能以高度的历史责任感主动承担起科学数据长期保存之责任, 那么在数据驱动生活的大环境下, 图书馆将丧失一个可持续发展的“生长点”。图书馆尤其是高校图书馆在科研资料的保存方面具有非常丰富的经验。目前许多高校、科研机构的图书馆都建立了机构库对机构的科研成果进行保存, 下一步需要探索如何基于现有的机构库实现对于科学数据的暂时存档和长期保存。3. 4 数据素养的教育机构随着数据时代的到来, 科学数据成为科研活动中的重要组成部分, 一个研究者如果不具有收集数据、管理数据、分析数据、提交

29、数据的意识和能力, 那么他就不能被称为新时期合格的研究人员。借鉴信息素养的定义, 姑且将这种能力称为“数据素养”。数据素养教育是我们应对“数据驱动”和“科研大数据”时代的基础。图书馆一直是信息素养培训机构, 目前在许多机构中都是由图书馆负责信息素养教育。从全国范围来看, 图书馆也是信息素养教育体系的重要组成部分。科学数据作为一种新的管理对象, 对于图书馆和用户来讲都是一个挑战。首先, 图书馆自身在科学数据管理方面也处于学习阶段, 需要不断学习和积累科学数据管理方面的经验, 为机构内部工作人员提供数据素养教育。其次, 图书馆应通过为科研人员提供课程培训, 提高科研人员的数据意识, 增强其收集数据

30、、管理数据、分析数据的能力。最后, 是对全民数据素质的培养。科研数据管理方法与素养教育应该被更多地纳入全民信息素养教育之中, 培养全民的数据管理意识, 使数据在各个领域都能够体现其作为机构资产的重要性, 从而促使其在潜移默化的使用中发挥自身的科学创造力价值。参考文献1Gold A.Cyberinfrastructure, data, and libraries.Part 2:Libraries and the data challenge:Roles and actions for librariesJ.D-Lib Magazine, 2007 (9/10) :1-10. 2Jordan C,

31、 McDonald R H, Minor D, et al.Cyberinfrastructure collaboration for distributed digital preservationC.Fourth IEEE International Conference on e-Science.Indianapolis:IEEE xplore, 2008:408-409. 3崔宇红.E-science 环境中研究图书馆的新角色:科学数据管理J.图书馆杂志, 2012 (10) :20-23. 4李晓辉.图书馆科研数据管理与服务模式探讨J.中国图书馆学报, 2011 (5) :46-52

32、. 5丁培.数据策展与图书馆J.图书馆学研究, 2013 (6) :94-98. 6科学数据共享调研组.科学数据共享工程的总体框架J.中国基础科学, 2003 (1) :63-68. 7李红星, 王建, 南卓铜, 等.西部数据中心的数据服务实践J.中国科技资源导刊, 2010 (3) :24-29. 8程莲娟.美国高校图书馆数据监护的实践及其启示J.图书馆杂志, 2012 (1) :76-78. 9张晓林.研究图书馆 2020:嵌入式协作化知识实验室?J.中国图书馆学报, 2012 (1) :11-18. 10Haas J.E-Science and libraries:Finding the right pathEB/OL.2014-02-20.http:/www.istl.org/09-spring/viewpoint1.html. 11赖剑菲, 洪正国.对高校科学数据管理平台建设的建议J.图书情报工作, 2013, 57 (3) :23-27. 12王旻燕, 臧海佳, 邓莉.NASA 地球科学数据分布式数据存档中心的数据和数据管理J.气象科技合作动态, 2009 (1) :439-446. 13钱鹏.高校科学数据管理研究D.南京:南京大学, 2012.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报