收藏 分享(赏)

国外机构科研数据知识库研究进展.doc

上传人:无敌 文档编号:146478 上传时间:2018-03-22 格式:DOC 页数:22 大小:146KB
下载 相关 举报
国外机构科研数据知识库研究进展.doc_第1页
第1页 / 共22页
国外机构科研数据知识库研究进展.doc_第2页
第2页 / 共22页
国外机构科研数据知识库研究进展.doc_第3页
第3页 / 共22页
国外机构科研数据知识库研究进展.doc_第4页
第4页 / 共22页
国外机构科研数据知识库研究进展.doc_第5页
第5页 / 共22页
点击查看更多>>
资源描述

1、国外机构科研数据知识库研究进展 司莉 曾粤亮 武汉大学信息资源研究中心 武汉大学信息管理学院 摘 要: 在 e-Science 和 e-Research 环境下, 通过建立科研数据知识库对高校及其他研究机构的科研数据进行有效管理以促进机构内与机构间数据共享与学术交流, 已逐渐成为近年来国外科研数据管理领域关注的课题。本研究以 Web of Science、SpringerLink、ScienceDirect、Emeraldinsight、EBSCOhost 以及ProQuest Research Library 等数据库收录的文献为基础, 探讨国外机构科研数据知识库 (Institutiona

2、l Research Data Repository, IRDR) 研究的最新进展。国外该领域的研究主要涉及:机构知识库在科研数据管理中的作用、IRDR建设的需求与实践、IRDR 的管理、IRDR 的数据存储、IRDR 的数据组织与检索、IRDR 的数据出版以及 IRDR 联盟。目前, 国外 IRDR 研究呈现出以下特点:IRDR研究受到多个领域的关注、研究成果具有较强的实践指导性、注重 IRDR 的生命周期管理、IRDR 联盟成为发展趋势。针对我国在该领域现有研究的一些问题, 未来研究应重点关注 IRDR 理论研究的系统化、平台的建设与管理、面向科研人员服务的开展、知识产权研究及联盟机制的深

3、入探索。关键词: 机构科研数据知识库; 科研数据; 机构知识库; 科研数据管理; 机构科研数据知识库联盟; 作者简介:司莉, 女, 1965 年生, 博士, 教授, 博士生导师, 主要研究方向为知识组织与知识管理;作者简介:曾粤亮, 男, 1991 年生, 博士研究生, 主要研究方向为科研数据管理, E-mail:。收稿日期:2016-11-18基金:国家自然科学基金项目“大数据环境下科研数据机构知识库联盟形成机理及其服务研究:以985高校为实证对象” (71573198) Research Progress on Institutional Research Data Repositorie

4、s AbroadSi Li Zeng Yueliang Research Center of Information Resource, Wuhan University; School of Information Management, Wuhan University; Abstract: In the era of e-Science and e-Research, it has been a growing concern in the field of research data management abroad to effectively manage research da

5、ta by establishing research data repositories, both within and across universities and other research institutions, to promote data sharing and scholarly communication. This paper adopts Web of Science (Wo S) , SpringerLink, ScienceDirect, Emeraldinsight, EBSCOhost, and ProQuest Research Library as

6、the main data sources to conduct a systematic review on the latest progress of institutional research data repositories (IRDRs) overseas. It is shown that research on IRDR has mainly focused on the role of institutional repositories in the course of research data management, the needs and practice o

7、f IRDR development, the management of IRDRs, data storage in IRDRs, data organization and retrieval in IRDRs, data publishing of IRDRs, and the federation of IRDRs. Based on the literature analysis, it has become clear that research on IRDRs covers various research topics, presents strong practice g

8、uidance, and highlights the life-cycle management of IRDRs; besides, it is clear that the federation of IRDR has become a trend. On the basis of the findings, the future study of institutional research data repositories in China should focus on the systematization of theoretical study, the developme

9、nt and management of platforms, the conduction of related services for researchers, the further exploration of intellectual property, and research on the mechanism of IRDR federation.Keyword: institutional research data repository; research data; institutional repository; research data management; f

10、ederation of institutional research data repository; Received: 2016-11-181 引 言21 世纪以来, 大数据成为数字化生存时代的新型战略资源, 是驱动创新的重要因素。2012 年 12 月, IDC 和 EMC 发布的“2020 年的数字宇宙”报告指出, 全球数据将以每两年翻一番的速度骤增, 预计到 2020 年总量将达到 40ZB1。海量数据的剧增, 直接推动了第四种研究范式数据密集型科学发现究 (data-intensive science) 的形成与发展, 科学数据全面成为科学研究的基础设施和工具。科技界一直高度重视

11、数据对科研的支撑作用, 致力于推进数据的管理与共享。国际科学联合会理事会建立世界数据中心 (World Data System, WDS) 、美国创建校际社会科学数据共享联盟 (Inter-university Consortium for Political and Social Research, ICPSR) 、英国建立 JISC 国家数据中心网络 (JISC National Data Centers) 、欧盟通过 e-Science 和 e-Infrastructure等计划积极推进科学数据的建设与利用;美国国家科学理事会 (National Science Board, NSB)

12、于 2005 年发表支持 21 世纪科学和教育的可持续数据集合, 探讨大规模数据的组织和维护, 用以支持科学研究的需要;全球研究数据联盟 (Research Data Alliance, RDA) 于 2013 年 3 月成立, 致力于加快数据驱动的创新与发现。而在高校及其他小型研究机构, 科研活动通常由个别学者或专家发起, 经费投入有限, 参加人员来自一个或几个实验室或院系机构, 具有小科学研究的特点2, 但这种小科学研究积累的数据总量约是大型科研项目的 23 倍, 而其研究数据通常保存在项目组成员个人计算机和服务器中, 缺乏统一标准与分享机制, 更缺乏项目完结后对数据的长期利用策略。巨量科

13、研数据具有实现与科学文献相融合的价值, 但若缺乏有效管理, 以及缺少适当的发布、存储和获取途径, 将无法实现共享与利用。因此, 如何对机构科研数据进行有效的获取、存档、组织、管理和利用, 进一步促进学术交流, 实现高校科研数据的广泛共享是当前科学数据管理面临的一个重要挑战。近年来, 国外各类型科研机构纷纷将科研数据纳入其机构知识库的收录范畴, 或构建专门的科研数据知识库 (Research Data Repository, RDR) 。科研资助机构和期刊社也相继制订了关于科研数据保存地点的规定, 如美国科学基金会 (National Science Foundation, NSF) 要求研究人

14、员使用主题仓储或机构知识库保存科研数据, 并在数据管理计划中予以说明3;Nature 提出作者必须将数据集提交至所在实验室或机构的数据知识库中, 且自研究成果发表之日起至少保存 5 年4。由美国信息科学与技术学会 (Association of Information Science and Technology, ASIS经济和社会研究委员会 (Economic and Social Research Council, ESRC) 认为, 科研数据是从原始数据中收集或产生、或来源于当前科研项目中存在的并将用于分析的研究资料8。澳大利亚国家数据服务系统 (Australian National

15、 Data Service, ANDS) 将科研数据划分为观测数据 (observational data) 、实验数据 (experimental data) 、仿真数据 (simulation data) 、派生数据或编译数据 (derived data or compiled data) 和参考数据或规范数据 (reference data or canonical data) 五大类别9, 目前这一划分标准得到学术界的普遍认同。2.2 科研数据管理科研数据管理 (Research Data Management, RDM) 是指与科研数据生命周期相关的全部管理活动, 研究机构或数据管理

16、人员通过一定的技术方法和手段对科研数据进行保存、组织、检索、共享和利用10。2010 年, NSF 推出了新的科研数据共享政策, 特别是 2010 年 10 月之后, NSF 计划要求在申请 NSF 基金时, 数据管理计划需要以正式的两页补充文档的形式一并提交11, 此项变更是为了适应当前所面对的数据驱动科研的变化, 也充分体现了 NSF 对科研数据管理的重视程度。目前, 国内外众多高校都面向科研人员开展了科研数据管理的服务, 如剑桥大学、斯坦福大学、爱丁堡大学、巴斯大学、谢菲尔德大学等, 其中, 图书馆在科研数据管理中扮演着重要的角色, 纷纷制订了科研数据管理计划并提供相关服务。2.3 机构

17、知识库机构知识库 (Institutional Repository, IR) , 也叫机构仓储或机构典藏, 是 21 世纪初伴随着南开普敦大学 Eprints (2000 年) 和麻省理工大学 DSpace (2002 年) 的引入而产生的12。学术出版与学术资源联盟 (Scholarly Publishing and Academic Resources Coalition, SPARC) 主管 Johnson13将其定义为不论目的和出处, 由学院或大学主管、拥有、调控和传播的数字资源集合;Chapman 等14则认为 IR 是收集、管理和传播机构产生的资源的实体。Shearer15将 I

18、R 的特点总结为数字化的、由机构定义的、学术的、累积的和永久的、开放存取的和可互操作的。目前, IR 主要用于保存科研人员的学术专著、已出版的期刊、会议文献、技术报告、学位论文和数据集等学术资源。2.4 机构科研数据知识库传统的 IR 存储的学术资源类型多样, 为了更有针对性地管理科研数据, 科研机构开始建立专门的 RDR。2013 年, Pampel 等16在 Making Research Data Repositories Visible:The re3data.org Registry 一文中提出机构科研数据知识库 (Institutional Research Data Reposi

19、tory, IRDR) 的概念, 它是RDR 的类型之一, 指高校及其他研究机构专门用于收集、存储、组织和管理机构内科研人员的科研数据集的知识库, 目的是实现机构内部和不同机构之间科研数据的共享, 保障科研数据得到更大范围的利用, 促进不同学科间的交流, 实现科研数据的价值。随着社会各界对数据的重视, IRDR 将是高校等科研机构在未来研究与建设的重点。3 数据来源与概况为客观地反映国外机构科研数据知识库的研究进展, 笔者以国外研究论文为对象进行统计和分析。本文以 Web of Science、Springer Link、Science Direct、Emeraldinsight、EBSCOh

20、ost 以及 Pro Quest Research Library 等数据库作为主要数据源, 以主题词为检索项, 将“Research Data”“Institutional Repository”“Institutional Research Data Repository”“Data Repository”“Data Management”等术语进行组配检索 (检索时间为 2016-04-06) 。对所得结果进行内容分析, 剔除无关数据, 筛选出与本文研究主题高度相关的文献, 共计 95 篇。图 1 反映了国外机构科研数据知识库领域研究论文的时间分布情况。从图 1 可以看到, 国外 IRD

21、R 研究起步于 2005 年, 初期成果并不多, 主要的研究集中在近十年。在 2005-2010 年期间, “数据”引发了学术界的研究热潮, 在 IR 研究的基础上, 国外学者将研究视角转向科研数据, 并将二者结合, 认为机构知识库是保存科研数据的最佳选择;在这一时期, 研究主题集中于 IRDR 的建设, 包括平台开发工具、关键技术以及实践案例, 文献数量在 2010 年达到第一个高峰。2011 年, 相关研究有所下降, 此后稳步提升, 并于 2014 年达到研究高峰;在这一时期, 研究领域扩散, 学者开始针对某一具体学科领域开展IRDR 的研究, 同时, 机构科研数据知识库联盟得到关注。整体

22、上, 国外 IRDR研究呈现出波动上升的趋势, 可见, IRDR 是目前学术界与业界关注的前沿课题, 也是未来研究的方向。图 1 国外机构科研数据知识库领域研究论文的时间分布 下载原图从文献的学科分布来看, 国外 IRDR 研究主要集中于图书情报学 (43 篇, 占45.2%) 、计算机科学 (12 篇, 占 12.6%) 、医学 (12 篇, 占 12.6%) 、生物学 (9 篇, 占 9.5%) 等领域, 具体分布如图 2 所示。图 2 国外机构科研数据知识库领域研究论文的学科分布 下载原图4 研究主题分析国外该领域的研究主题广泛, 主要涉及机构知识库在科研数据管理中的作用、IRDR 的建

23、设需求与实践、IRDR 的管理、IRDR 的数据存储、IRDR 的数据组织与检索、IRDR 的数据出版以及 IRDR 的合作联盟趋势共 7 大主题。4.1 机构知识库在科研数据管理中的作用近年来, 社会各界对科研数据的开放存取需求日趋迫切, 而机构知识库、主题仓储和集中式数据仓储是保存科研数据之必然且最佳的选择17。Palmer18提出, 将科研数据存档至机构知识库中具有多重意义, 包括促进研究成果的传播、响应开放存取运动、更全面地评估研究的影响力、提升研究者及所在机构的知名度、支持高校的学术出版、赢得更多的科研资助、帮助研究者养成良好的学术素养。从已有的研究中可以发现, 机构知识库对于科研数

24、据的作用主要可以划分为以下两个方面:(1) 从数据共享和学术交流的角度。在现代科学研究中, 研究人员之间的数据共享是必不可少的, 尤其是在依赖数据密集型研究活动和学术交流的领域。Kim等19指出, 健康科学属于数据密集型和复杂型科学, 而机构知识库通过基于网页的门户服务为该领域科研人员共享数据提供了极大的便利, 临床数据、比对数据和微阵列数据 (microarray data) 的共享有利于促进健康科学的发展和改善病人护理。Kim 等20认为, 科研数据知识库可以通过数据共享帮助社会科学领域的学者验证结果, 方便数据的重复使用和再分析, 并最终通过大型数据集推进科学发现。Schwartz 等2

25、1指出, 一项来自医学教育研究协会的调查显示, 被调查者认为医学教育科研数据知识库有利于本单位和医学教育领域的发展, 通过数据共享促进数据对于新的科学问题的二次分析, 同时通过研究样本的扩大改善课程对学生表现和评估方法的影响。Diekema 等22通过调查发现, 一部分研究人员将数据共享视为科研进展的重要环节, 他们会利用机构知识库中其他研究者的科研数据来支撑个人的研究项目;还有一小部分教师利用数据集应用于课堂教学, 向学生介绍如何查找和使用科研数据。(2) 从科研数据管理的角度。Vizcano 等23通过对 Peptide Atlas、Tranche和 NCBI Peptidome 等蛋白质

26、组学数据知识库的介绍, 指出其通过数据类型规范、数据提交策略、格式支持以及数据挖掘和可视化工具对该领域科研数据进行管理, 保障科研数据的安全性, 为未来的研究提供可靠的数据支持。Walters24从学术图书馆发展的角度提出, 科研数据作为高校研究项目智力成果的重要组成部分, 需要进行长期良好的管理, 为应对这一挑战, 学术图书馆需要建立专门的机构知识库对其进行保存、组织和管理, 保障科研数据的开放存取。Cragin 等25通过一项针对伊利诺大学香槟分校和普渡大学研究人员科研数据共享意愿的调查发现, 研究人员日渐青睐于将科研数据提交至所在机构的知识库中, 原因在于机构知识库的管理人员 (多为图书

27、馆员) 在此过程中能协助其解决各种问题, 且保存至机构知识库中的科研数据能得到妥善处理和利用, 同时帮助研究人员走出以往小科学数据共享囿于专业关系和个人交流的窘境。4.2 机构科研数据知识库建设的需求与实践4.2.1 机构科研数据知识库建设的需求调研用户需求是机构科研数据知识库建设的导向和动力, 也是平台建设的基础。Normore 等26从环境科学出发, 认为目前大部分学科数据知识库取得了成功, 而机构知识库在用户需求方面缺乏经验, 因此以邮件形式向 313 位环境领域科学家发送调查问卷, 收到有效反馈 62 份, 通过分析认为, 科研数据知识库的管理者应该意识到数据保存长期规划的重要性, 同

28、时要考虑用户在标准使用、数据安全性、标准工具获取、系统管理、元数据标准、平台工具使用方法和机构政策等方面的需求。Franke 等27认为目前大部分高校医学中心的生物医学图像数据管理情况并不乐观, 于是在德国研究基金会 (German Research Foundation, DFG) 和德国科学与人文委员会 (German Council of Sciences and Humanities) 专业管理的基础上提出建设本地集成的生物医学图像数据知识库的构思, 该知识库需要满足八大功能, 分别是:多项目和多站点功能、数据导入和输入功能、去标识措施 (De-identification measu

29、res) 、与其他信息系统互操作功能、质量管理支持、数据导出功能、查询功能和基本的数据演示功能。Mc Kay28认为大部分数据数字图书馆 (data digital libraries) 失败的原因在于未能考虑用户在技术和服务方面的需求, 因此, 机构科研数据知识库在实施中需要颁布综合的政策, 并为科研人员提供必要的技术帮助和服务, 提高科研人员使用机构科研数据知识库的意愿和效率。4.2.2 机构科研数据知识库建设的实践总结目前, 国外已有不少科研机构 (以高校为主) 建设了科研数据知识库, 如美国哈佛大学的 Harvard dataverse 和英国爱丁堡大学的 Edinburgh Data

30、 Share、利兹大学的 Research Data Leeds Repository、布里斯托大学的 data.bris Research Data Repository 等。学者们对相关机构科研数据知识库平台的开发过程、工具和关键技术进行了介绍, 并通过具体实践探讨了平台建设原则和挑战。Wilson 等29以英国牛津大学科研数据管理基础设施系列项目为例, 指出科研数据机构知识库的建设应遵循两条原则:以研究人员为中心、坚持科研数据管理服务各提供方之间的合作。2013 年, 来自英国数字监护中心 (Digital Curation Centre, DCC) 的 Angus Whyte 结合牛津

31、布鲁克斯大学人文艺术科学数据机构知识库 (Research Archive and Digital Asset Repository, RADAR) 的开发历程, 将科研数据机构知识库建设面临的挑战总结为 4 点:如何鼓励研究同行改变其数据保存习惯, 选择需保存的对象并确保其可被引用, 描述所保存的数据资料及确定所在机构处理研究成果的策略30。此外, Lee 等31总结了机构科研数据知识库的建设流程和需使用的工具, 认为理解和提供有力的支持对于机构科研数据知识库的建设与目标实现是非常必要的, 提出数据管理人员、机构知识库管理人员和元数据专家是参与建设的主要人员, 并分别阐述了其承担的任务和所需

32、的技能, 如机构知识库管理人员有需要对机构知识库进行日常的管理、与数据提供者合作并帮助他们添加元数据和上传数据, 并且需要掌握必要的技能, 如数字图书馆构建技术和软件知识。4.3 机构科研数据知识库的管理对机构科研数据知识库进行有效管理是实现知识库可持续发展的关键环节。机构科研数据知识库主要针对数据进行管理, 包括数据质量管理和基于生命周期的数据监护。其中, 数据质量管理主要是对上传到机构科研数据知识库的数据集的出处和质量进行控制, 而数据监护则是对知识库内保存的科研数据进行长期系统的管理。4.3.1 数据质量管理在大数据时代, 科学研究的价值很大程度上取决于其数据的质量, 因此, 对数据质量

33、进行有效管理显得尤为重要。Owonibi 等32提出了数据质量管理 (Data Quality Management, DQM) 的概念, 认为 DQM 在科学研究中处于极其关键的位置, 他们从技术角度出发, 结合统计分析、数据挖掘、数据标准和生物多样性模型设计了半自动化的生物多样性数据知识库数据质量管理程序, 其流程如图 3 所示。Buchmann 等33基于与生物多样性信息学领域专家合作的项目获得的经验, 将原始数据从本地研究项目中转移到机构科研数据知识库过程中, 同时对软件构建框架、工具和技术实行标准化管理。图 3 生物多样性数据知识库数据质量管理流程图 下载原图4.3.2 数据监护数据

34、监护 (data curation) 是近年来学者较为关注的议题, 它是指从数据产生开始即对其管理, 以促进数据的利用, 确保数据能够在需要时被再发现和利用。DCC 开发的数据监护生命周期模型分为描述和表示信息、建立存储计划、观察和参与科研组织活动、监护和保存数据四个阶段34;而 ANDS 将数据监护分成创造、存储、描述、标识、登记、获取、检索和开发等八个环节35。Witt36认为, 缺乏数据组织、保存和存取的框架容易导致大量有价值的科研数据丢失或被舍弃, 美国普渡大学图书馆分布式数据监护中心 (Distributed Data Curation Center, D2C2) 将图书馆员和图书馆

35、档案学、计算机和信息科学、信息技术等领域等专家集合在一起, 探讨如何更好地支持通过数据监护实现机构科研数据知识库的跨学科研究。Johnston37介绍了美国明尼苏达大学图书馆科研数据知识库数据监护的流程和方法, 其流程为:图书馆对所有上传的数据集的主题和类型进行审阅, 根据学科 (科学、社会科学、地理信息系统和空间、数字人文科学和医学) 分别将监护任务分配给特定领域的数据监护员, 数据监护员审查数据的可用性和质量, 并协助数据作者, 使得提交数据内容更为丰富;数据监护途径包括生成自定义元数据、对象描述和文档转换。4.4 机构科研数据知识库的数据存储科研数据的存储 (data storage)

36、是科研数据管理中的重要环节, 也是实现数据价值再发现的基础。与数据存储相关的概念有数据归档 (data archiving) 和数据保存 (data preservation) , 数据归档是指合理地选择及储存数据, 以确保其物理上及逻辑上的持续完整性, 以及具备可获取性、安全性和可靠性的活动, 数据归档是从内容层面确保数据的可用性;而数据保存是数据归档的任务之一, 指对具体数据对象进行持续维护, 以确保其在相关技术变革后仍能被读取和理解的活动, 数据保存是从技术层面确保数据的可持续性38。在 2004-2005 财年, 加拿大社会科学和人文研究协会 (Social Sciences and

37、Humanities Research Council of Canada, SSHRC) 资助了 6958 个项目, 而这些项目的数据存储情况不容乐观, 该领域的研究人员在支持数据保存举措的同时也表示迄今没有系统地保存科研数据, 亟需合适的数据保存平台39。Downing 等40介绍了一个化学教学和科研数据的提交、保存和传播项目 (Submission, Preservation and Exposure of Chemistry Teaching and Research Data, SPECTRa) , 该项目调查了部分化学家对原始化学数据存储和传播的情况, 为解决数据因未保存而丢失的问

38、题, 他们为机构开放存取数据库开发了软件, 可将晶体学、核磁共振和计算化学等学科的数据转化为 XML 格式。Shin 等41介绍了一个脑血流量生物医学信息研究网络 (Cerebral Blood Flow Biomedical Informatics Research Network, CBFBIRN) 的数据知识库, 共存储了来自 34 个研究项目的 2000 多个数据集, 作为数据质量控制的必要环节, 该知识库对存储数据的格式和类型进行规定, 其中, 数据类型包括原始动脉自旋标记 (Arterial spin labeling, ASL) 数据、补充图像数据、图像元数据、主题元数据、临床数

39、据和派生数据。Dima 等42描述了将语言学研究数据上传到数据知识库实现可持续管理的流程, 其中, 数据归档流程包括:检查原始数据的技术参数、检查元数据、分配永久标识符 (Persistent Identifier, PID) 及更新元数据。目前, 国外多所高校在机构科研数据机构知识库的数据存储方面进行了探索, 并积累了较为成熟的经验, 保障了高校科研数据的长期保存。2007 年, 澳大利亚莫纳什大学针对处于数据生命周期不同阶段的科研数据分别建立两个知识库:协作与出版知识库和保存知识库, 前者用于暂时存储研究中产生的、更新频繁的数据, 后者则用来长期保存研究结束后整理、加工而成的数据集43。美

40、国普渡大学分布式数据管理中心 (Distributed Data Curation Center, D2C2) 于 2008 年创建了 e-Data 机构科研数据知识库, 并实现了该库与校内其他机构知识库 (e-Archives、e-Pubs) 的资源整合, 从而形成分布式的机构知识库体系;此外, D2C2 还与大学信息技术部分合作, 共同探索科研数据存档服务, 更好地满足科研人员的需求30。美国约翰霍普金斯大学谢里丹图书馆认为机构知识库是复合文档 (包含文本、图像、数据、音视频等多种信息) 出版的重要工具, 并与美国国家虚拟天文台共同设计了集天文学研究文献和数据于一体的机构存储系统, 该系统

41、使用 OAI-ORE 协议进行数据建模44。4.5 机构科研数据知识库的数据组织与检索4.5.1 机构科研数据知识库的数据组织机构科研数据知识库保存的数据具有宝贵的学术价值, 但对于广大研究人员而言, 这种价值只有通过数据的组织才能体现并提升。目前, 国外机构科研数据知识库主要通过元数据和本体等技术和工具对科研数据进行组织, 实现系统化和逻辑化管理, 方便研究人员进行数据检索。(1) 元数据。Gutteridge45强调, 实现科学数据机构知识库资源有效利用的关键在于选用合适的元数据标准, 他以 DOI、RDF 和 RDFa 语言为工具, 针对机构科研数据知识库制订了一套遵循 OAI-PMH

42、协议的元数据描述标准。Drury 等46通过对澳大利亚 39 所机构科研数据知识库的调查发现, 为数据集添加元数据描述是目前机构科研数据知识库管理人员面临的核心挑战之一, 他提出借鉴传统机构知识库的经验, 可将元数据转换为关联数据, 即根据 Berners-Lee 提出的关联数据四原则确定分配 URI 至数据集的方法, 利用关联数据发布工具生成元数据到关联数据的映射文件, 实现元数据的关联。Bradbury 等47介绍了澳大利亚昆士兰科技大学的机构元数据库 Research Data Finder, 通过该元数据库可查询该校的科研数据集、研究人员和机构、研究项目、研究出版物等信息, 该库还利用

43、元数据收割机获取 ANDS 等其他数据机构库的元数据, 为一站式检索提供便利。Wilson 等48介绍一个基于语义网的科研数据集元数据库 LASP Extended Metadata Repository (LEMR) , 为科研人员提供一致的、实时的和经过验证的元数据, 该库实现了机构内开放数据与互联网的联通, 用户通过关联界面浏览和查询元数据, 同时允许用户通过 ISO 和 SPASE (The Space Physics Archive Search and Extract, 空间物理档案检索与提取) 等多种模式生成元数据, 实现自动语义关联。Rousidis 等49认为, 尽管元数据在

44、机构知识库的数据管理中扮演重要的角色, 但是数据的容量、复杂的生命周期以及财力和人力等方面的操作限制影响元数据的效果, 基于此, 他们通过对 4557 个组件和 13638 个数据文件的测试, 对 Dryad 科研数据知识库的 DC.Subject 元数据元素进行描述性分析, 对元数据评价具有一定的启发作用。(2) 本体。本体是对概念及概念之间关系规范化、形式化、可共享、明确化的描述, 是一种表达、共享、重用知识的方法, 应用于机构科研数据知识库可加强数据的语义关联。Lowe50介绍了美国康奈尔大学的阶段性数据知识库 (Data Staging Repository, Data Sta R)

45、, 该库通过语义元数据实现数据集的出版, 并将 OWL 和 RDF 应用于元数据存储, 作为基于网页的元数据管理平台以减少多余的人工输入, 为了使产生的元数据符合 XML 语言, Data Sta R 利用本体生成 HTML 编辑表单, 将本体公理应用到 XML 使其与现有模式兼容。美国明尼苏达大学与其附属综合健康系统合作建设了以研究导向的临床数据知识库Fairview Health Services, 同时开发了 HL7/LOINC 文档本体 (Document Ontology, DO) , 致力于临床文档名称和相关属性的标准化。Wang 等51对 DO是否足够反映社区和学术机构临床数据知识库文档进行评估, 结果显示, 知识库中的大部分类目都能映射到 DO 本体上, 但“环境”和“角色”等属性并不总是和 DO 轴相一致, 需要在算法设计、DO 值设置和数据管理上加强。为了解决慢性淋巴细胞白血病 (Chronic Lymphocytic Leukemia) 领域的知识鸿沟,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报