1、科研数据知识库研究述评 刘峰 张晓林 孔丽华 中国科学院国家科学图书馆 中国科学院计算机网络信息中心 中国科学院大学 摘 要: 【目的】分析描述科研数据知识库及其服务的现状和未来发展方向。【方法】利用 Databib 开放注册数据, 分析科研数据知识库的国别、建立时间、学科领域、隶属机构类型、开放度等分布, 并利用 GenBank、Dryad、Figshare 三个典型数据知识库分析对比科学数据库的服务特色。【结果】科研数据知识库无论在开放趋势还是在服务模式都呈现积极上升和丰富化态势, 但在标准化集成化管理和多样化服务模式方面仍有重要发展潜力。【结论】科研数据知识库已有良好的发展基础, 但应在
2、基于科研活动全生命周期的科研数据规范化管理和开放科研数据应用机制方面加大研究和发展力度。关键词: 数据知识库; 机构知识库; 数据管理; 数据服务; 作者简介:刘峰 E-mail:收稿日期:2013-11-24Research Review on the Research Data RepositoriesLiu Feng Zhang Xiaolin Kong Lihua National Science Library Chinese Academy of Sciences; Abstract: Objective To discusses the current status and fu
3、ture directions of Data Repositories (DR) . Methods Using Databib data, this paper analyses the distributions of DR in terms of country, set-up time, academic field, organizational types, and openness, and then uses GenBank, Dryad, and Figshare to demonstrate DR services. Results The study reveals t
4、he increasing openness and constant service enrichment of DR, and great potentials in standardizations and integrations. Conclusions DRs are in full development, but there are strong needs for further research and application in research lifecycle based data management and open data standards and to
5、ols.Keyword: Data repositories Institutional repository Data management Data services; Received: 2013-11-241 引 言近年来, 随着数据密集型科研活动的蓬勃发展, 数据管理成为科研活动的重要组成部分, 继而对科学数据管理和科学数据知识库 (Data Repositories, DR) 提出了新的要求。本文通过 DR 现状分析来揭示现有 DR 的能力和局限, 为 DR 的发展提出建议。2 数据知识库概述2.1 定义与特点DR 往往被翻译为数据知识库、数据仓储、数据资源库、数据存储库等。在科研
6、领域和科学数据管理领域, DR 的重点往往在于支持科研活动、深化基于数据的知识再利用和再创造, 因此本文中将使用数据知识库。需要指出, 数据知识库本身将随着科技模式、科技环境、以及技术本身的发展而发展, 而且需要通过不同领域、不同应用、不同数据形态等多角度个性化地发展, 因此本文比较开放地定义数据知识库为以存储和管理“科研数据”、支持科研活动及其知识创造的数字知识库, 其中科研数据是指通过采集、实验、观察、整理而形成, 用于科研分析并最终形成科研成果的数字数据1。数据知识库承担不断发展更多的数据管理、数据应用的责任, 包括:(1) 支持对科学数据集的存缴、格式处理、内容描述、长期保存等;(2)
7、 提供查询、调用、显示等基本服务;(3) 往往提供对数据进行转换、融汇、可视化等服务或工具;(4) 可能提供支持数据管理、协同处理、应用控制等服务;(5) 可由某个机构、领域或者公共第三方建立。2.2 数据知识库类别目前, 数据知识库主要分为机构数据知识库、学科数据知识库、多学科数据知识库以及特定项目数据知识库 4 类2, 如表 1 所示。其中, 就数据服务的开放性而言, 学科数据知识库和多学科数据知识库由于面向广泛的科研群体, 开放性最强, 而机构数据知识库和项目数据知识库往往局限于相应机构或项目; 就服务学科领域的深度而言, 学科数据知识库面向特定学科领域、且往往是长期服务, 表现出更强的
8、系统化与专业化服务能力; 就服务学科领域的广度而言, 多学科数据知识库和机构数据知识库明显更有优势。表 1 数据知识库分类说明 下载原表 表 2 典型数据知识库注册目录系统比较 下载原表 表 3 主要科技大国及世界组织数据门户列表 下载原表 2.3 数据知识库目录系统面对越来越多的各类数据知识库, 发现和利用合适的知识库成为一种挑战, 科研数据知识库注册与目录系统应运而生。当前比较知名的这类系统包括 OAD3、re3data.org4、Databib5等, 如表 2 所示。另一方面, 科技发达国家以及一些国际组织结合政府数据和科研数据开放利用的要求, 积极建设自己的数据门户, 帮助人们发现和利
9、用政府数据和政府资助科研项目数据, 如表 3 所示。由于政府本身往往是各类数据的主要生产者, 也是科技研究的主要资助者, 这些数据门户已经成为所在国最重要的数据目录。3 基于 Databib 的数据知识库分布分析为了全面了解国际科研数据知识库的发展现状, 笔者对 Databib 注册的 595 个数据知识库 (截至 2013 年 9 月 27 日6) 进行了多角度统计分析。Databib 作为专门的数据知识库注册系统, 力图收集和描述全球有重要价值的数据知识库, 其内容具有一定的代表性。当然, 由于数据知识库本身在迅速发展中, 而且 Databib 采取自愿注册, 不同国家的参与度也不一样,
10、因此它的广泛性、准确性存在一定局限, 基于它的分析主要提供大致的场景而非绝对的数据。3.1 按国家分布统计数据知识库按国家分布统计如图 1 所示。以美国、英国等国在科研数据知识库数量方面具有较大优势, 包括中国在内的广大发展中国家还存在很大差距。图 1 数据知识库按国家分布统计 下载原图3.2 按建设年代及年度统计对标有建设年份的 433 个数据知识库记录统计发现, 建于 2000 年前的数据知识库占 45.27%, 2000 年以后的占 54.73%, 可见 21 世纪以来, 各国数据知识库发展建设迅速。笔者进一步分析了 2000 年以后的各年度数据, 如图 2 所示, 可见2000 年以来
11、数据知识库建设的发展速度总体相对平稳。图 2 2000 年以来数据知识库建设情况统计 下载原图3.3 按学科领域分布统计数据知识库按学科领域分布统计如图 3 所示, 生物、环境、地球科学等的数据知识库分布较为广泛, 农业等领域分布相对较少。应积极鼓励各个领域加强数据知识库研究建设。3.4 按知识库类型统计如图 4 所示, 隶属于学科、政府、机构的数据知识库占了绝大多数, 而多学科或隶属于商业、企业的科研数据知识库占据比例非常有限。图 3 数据知识库按学科领域分布统计 下载原图图 4 数据知识库按类型统计 下载原图3.5 按开放程度统计根据数据知识库对内容的开放获取、开放重用、开放存储许可, 统
12、计如图 5 所示。在 Databib 登记的多数数据知识库允许开放获取和开放重用, 但只有部分允许开放存储。当然, 这些结果与 Databib 更关注开放数据库有密切关系。图 5 数据知识库开放程度统计 下载原图3.6 按开放趋势统计笔者分析了 1983 年以来建设的数据知识库的开放获取及开放重用许可情况, 分析了 2000 年以来建设的数据知识库的开放存储状况 (因为开放存储本身的开展较晚) , 去除上下限极值后的结果如图 6 所示, 可见数据知识库的开放获取和开放重用有较为明显的上升, 开放存储稳中略有上升。图 6 数据知识库开放趋势统计 下载原图4 数据知识库实例分析为了深入理解科研数据
13、知识库的服务模式与特色, 笔者选取了国际范围内应用广泛的三个数据知识库 GenBank7、Dryad8和 Figshare9做进一步分析。4.1 GenBank(1) 简介GenBank 是美国国家生物技术信息中心 (NCBI10) 建立的基因序列数据库, 致力于收集所有公开可用的 DNA 序列数据, 为科研人员提供大规模基因组测序数据。作为国际核苷酸序列数据库协作组织的重要成员之一, 为保证数据的覆盖面, GenBank 与该组织的其他两个成员日本 DNA 数据银行 (DDBJ11) 和欧洲分子生物实验室 (EMBL12) 建立了相互交换数据的合作关系。(2) 服务特点采用序列标识符及标注元
14、数据信息检索 GenBank 序列数据;采用基于 Web 的提交工具 BankIt、基于 FTP 的客户端工具 Sequin;采用 NCBI 程序组件接口检索、连接、下载序列数据, 提供专门的检索工具Nucleotide;采用 BLAST (基础的本地比对检索工具) 比对查询 GenBank 序列数据;对提交的序列数据类型及内容组成有专门的格式要求;提交者随时可更新修正序列数据;提交者可指定序列数据的发布共享的时间;提交者可因版权、专利等提出保护要求, 可不提供公共访问。4.2 Dryad(1) 简介Dryad 国际数据知识库接受与出版的同行评议论文密切相关的科研数据集。它对数据格式没有专门要
15、求, 对提交的数据文件都给予 DOI 标识。Dryad 与TreeBASE13、GenBank7、DataONE14结成合作伙伴, 相互之间可以进行数据交换。(2) 服务特点支持灵活多样的数据格式、简单的提交模式和多层次的安全访问控制;支持与期刊论文和特定数据知识库 (如 GenBank) 的数据关联;为数据对象分配 DOI 标识, 便于数据引用;提供人机两种数据索引及检索接口, 提升数据的可见性;数据内容可以自由下载和重用;全程监护数据文件与元数据, 保证数据的有效性;提交者可以自由更新数据文件;与 CLOCKSS 合作进行数据长期保存, 可迁移数据格式到最新版本, 保证数据可无限期访问。4
16、.3 Figshare(1) 简介Figshare 为科研人员提供发布各类研究产出的平台, 以便研究成果可以更好地被引用、共享和发现。Figshare 接受图表、媒体 (包括音频) 、海报 (Poster) 、论文 (包括预印本) 和多文件 (文件集) 、数据集等, 为所有内容对象分配DOI, 采用 CreativeCommons 许可协议共享数据, 并且采用 Amazon 基于云的数据管理系统来保证数据存储的安全和可靠性。(2) 服务特点支持研究者以可引用、可检索、可共享的模式发布数据;提供无限的公共存储空间和 1GB 的私有自由存储空间;提供简洁的数据上传模式, 支持多种数据格式的快速上传
17、;所有 Figshare 上的对象被自动分配 DOI 标识, 便于数据引用;所有图片和论文采用 CC-BY 许可, 所有数据集采用 CC0 许可;基于云数据管理服务模式, 支持桌面客户端上传工具;与 CLOCKSS 合作进行数据的长期保存;提交者可以在提交数据后自由更新数据文件;提供数据内容及功能的开放 API 接口。4.4 综合对比分析表 4 典型数据知识库实例对比分析 下载原表 三个数据知识库的综合对比分析如表 4 所示。这三个数据知识库都支持开放获取、开放重用、开放存储, 支持数据集唯一标识、API 接口、自由更新, 支持便捷的提交与检索入口。5 数据知识库发展的挑战当前, 数据知识库的
18、数量不断增加, 许多数据知识库已经能够提供丰富的服务。但是, 由于数据、数据管理实践、数据应用等的复杂性, 要有效发现、有效利用、集成融汇科学数据, 还面临一系列挑战, 例如元数据、数据格式、检索协议等的互操作性。因此, 自然杂志提出了 Data Descriptor 架构15, 以数据描述符为核心, 通过一系列标准及框架映射实现多种数据知识库的有效整合, 并为科学数据及期刊文献的整合出版提供基础支撑服务平台, 如图 7 所示:图 7 数据知识库整合与出版框架15 下载原图另一方面, 笔者也注意到美国普渡大学的研究知识库 PURR16, 已经在数据知识库中嵌入科学数据管理规划功能和数据生命周期
19、管理功能。前者根据美国国家科学基金会 (NSF) 的项目数据共享与管理计划要求, 提供数据管理计划规范文件、数据管理计划模板以及检查核对模块, 把数据管理关口前移, 支持科研人员从项目申请时就围绕项目目标和过程, 设计数据管理要求和流程, 并形成规范的甚至是计算机可读的数据管理计划。后者更是把数据知识库作为项目的数据管理平台, 支持项目组在项目进行过程中的数据存缴、转换、共享和发布管理等, 一方面支持项目组系统规范地管理数据和研究过程, 另一方面自然地把项目组层面的数据管理与机构层面的数据知识库管理有机结合, 有效解决了原来严重存在的这两个环节彼此割裂的问题。国内的数据知识库建设也有了长足的发
20、展, 当前重点集中在基础服务体系建设方面。以笔者所在的中国科学院计算机网络信息中心科学数据中心为例, 目前在数据资源集成、管理与服务方面已形成较为完整的软件服务架构, 例如科学数据自助管理方面的 VisualDB17工具, 在数据整合与汇聚方面的数据资源与服务注册系统 RSR18, 在数据集成检索方面的科学数据搜索引擎 Voovle19, 在数据集管理方面的资源量统计系统 Resstat20和数据服务监控与统计系统MSIS21, 在科学数据参考咨询方面的 DRS22系统, 同时正在云数据管理及基于社交网络的数据交换共享平台研发上进行积极探索。考虑到科学数据管理本身的复杂性和科学数据发现与应用的
21、复杂性, 数据知识库还需要进一步发展。一方面, 应向普渡大学 PURR 学习, 将科研活动、数据管理、数据知识库三者密切结合, 梳理和健全围绕科研活动生命周期的科学数据管理的需求与规范框架, 分析科研数据生产、审核、处理、管理、应用整个谱段的利益相关者的复杂需求, 建立科研数据的权益管理框架及科研生命周期驱动的科学数据管理范式, 建立汇聚科研活动、数据管理、数据知识库的新型管理与服务模式。另一方面, 积极适应开放科研环境和开放数据应用要求, 适应科学数据和科学文献的整合出版趋势, 以数据的开放存储、集成发现、互操作、开放利用等为目标, 支持以下“技术”方面的研究与应用实践: 数据集描述与引用;
22、 数据出版; 数据关联发现; 数据溯源管理; 数据格式和元数据互操作; 数据开放检索协议; 数据权益保护和利用许可机制; 开放数据应用管理机制; 数据长期保存; 数据集和数据知识库登记; 海量数据资源集成整合, 等等。参考文献1The Edinburgh University.Data Repository:DataShareEB/OL.2013-06-13.http:/www.ed.ac.uk/schools-departments/information-services/services/research-support/data-lib rary/data-repository/def
23、initions. 2Pampel H, Vierkant P, Scholze F, et al.Making Research Data Repositories Visible:The re3data.org RegistryOL.PeerJ PrePrints, 2013.DOI:10.7287/peerj.preprints.21v1. 3OAD Data RepositoriesEB/OL.2013-09-13.http:/oad.simmons.edu/oadwiki/Data_repositories. 4re3data.org.Registry of Research Dat
24、a RepositoriesEB/OL.2013-08-23.http:/www.re3data.org. 5Databib.Research Data RepositoriesEB/OL.2013-08-17.http:/databib.org. 6DataCite RepositoriesEB/OL.2013-08-13.http:/www.datacite.org/repolist. 7GenBank HomeEB/OL.2013-09-13.http:/www.ncbi.nlm.nih.gov/genbank. 8Dryad Digital RepositoryEB/OL.2013-0
25、8-22.http:/www.datadryad.org. 9Figshare RepositoryEB/OL.2013-09-04.http:/. 10NCBI-National Center for Biotechnology InformationEB/OL.2013-09-12.http:/www.ncbi.nlm.nih.gov. 11DDBJ-DNA Data Bank of JapanEB/OL.2013-09-08.http:/www.ddbj.nig.ac.jp. 12EMBL European Bioinformatics InstituteEB/OL.2013-09-10
26、.http:/www.ebi.ac.uk. 13TreeBASE RepositoryEB/OL.2013-09-05.http:/treebase.org/treebase-web/home.html. 14DataONE-Data Observation Network for EarthEB/OL.2013-09-15.http:/www.dataone.org. 15Scientific Data to Complement and Promote Public Data RepositoriesEB/OL.2013-09-10.http:/ 16PURR-Purdue Univers
27、ity Research RepositoryEB/OL.2013-07-20.https:/purr.purdue.edu. 17可视化关系型数据管理与发布工具EB/OL.2013-08-21.http:/. (Visual Database Manage SystemEB/OL.2013-08-21.http:/.) 18科学数据资源与服务注册系统EB/OL.2013-09-02.http:/. (Resources and Services Registry SystemEB/OL.2013-09-02.http:/.) 19科学数据搜索引擎EB/OL.2013-09-15.http:/
28、. (Search Engine of Research DataEB/OL.2013-09-15.http:/.) 20资源量在线统计系统EB/OL.2013-09-16.http:/. (Data Resource Statistics SystemEB/OL.2013-09-16.http:/.) 21数据服务监控与统计系统EB/OL.2013-06-09.http:/. (Scientific Database Service Monitoring and Statistics SystemEB/OL.2013-06-09.http:/.) 22科学数据咨询服务系统EB/OL.2013-10-13.http:/. (Digital Reference Service SystemEB/OL.2013-10-13.http:/.)