1、基于生命周期的科技信息资源共享元数据研究 刘春燕 安小米 中国科学技术信息研究所 中国人民大学信息资源管理学院 摘 要: 文章简述了元数据在科技信息资源共享中的现状, 提出了面向共享的科技信息资源元数据生命周期模型, 重点分析了生命周期模型中生产阶段的元数据集确定原则、传播阶段的元数据收割实践两个关键过程, 并在此基础上提出了我国科技信息资源元数据研究和实践的改进建议。关键词: 科技信息资源; 元数据; 资源共享; 生命周期; 模型; 作者简介:刘春燕, 女, 1974 年生, 博士, 副研究馆员。发表论文 20 篇。作者简介:安小米, 女, 1965 年生, 博士, 教授。发表论文 190
2、余篇。基金:2013 年度国家社会科学基金项目“面向共享的科技计划项目元数据框架研究” (项目编号:13BTQ018) 和 2013 年度国家社会科学基金重大项目“国家档案资源整合与服务机制研究” (项目编号:13 metadata; resource sharing; lifecycle; model; 1 科技信息资源共享中的元数据科技信息资源也称科学技术信息 (Scientific and Technical Information, STI) , 其含义为经创建者确认, 科学家、研究者和工程师等在科研活动中形成, 并经其确认为有用的 (计划出版或传播) 的, 以任何格式和媒介存在的科学
3、发现和技术创新结果1。数字环境下, 科技信息资源包括文本、多媒体、音视频和数字等多种格式, 涵盖技术报告、会议论文和 PPT, 学位论文、科学技术计算机软件、期刊论文、论坛报告、专利、科学数据集等多种信息资源, 包括公开和涉密科技信息资源。科技信息资源共享可以最广泛传播研究成果, 以及重复研究, 节约时间和经费2, 在国内外一直是科研领域研究和实践的热点问题。科技信息资源元数据是描述科技信息资源发布和检索等属性的数据3。S.Maguire 等认为4, 元数据描述了数据的起源 (来源) 、数据共享的条件和环境 (政策) 、以及保密等级或标识等其他附加属性, 元数据提供了数据的摘要层, 为数据处理
4、和呈现等信息共享环境提供了首要条件。元数据促进科技计划项目资源共享成为全球化趋势, 早在 2002 年英国 NERC (自然环境研究理事会) 就要求 NERC 资助项目在其指定数据中心上传和保存数据, 要求 NERC 研究中心作为元数据提供者确保数据描述的一致性5。NPRB (北太平洋研究委员会) 规定6, NPRB 资助项目元数据应在项目结题后 6 个月内向公众开放, 资助资金的 10%将在所有数据库和元数据信息收到并经 NPRB 审核通过后再拨付。印度政府 2012 年的国家数据共享和获取政策 NDSAP7指出, 国家数据共享和获取致力于促进以技术为基础的数据管理文化及共享和获取, 所有部
5、委应在本政策发布的 3 个月内向 data.gov.in 网站上传至少 5 个高价值数据库, 标准化的元数据格式也要上传, 以促进数据发现和获取。美国NSF、NIH 等基金项目管理政策中一般没有将元数据单独列控制出, 主要通过数据共享政策 (Data Sharing Policy) 提出具体要求。如自 2011 年 1 月 18 日, NSF 要求8所有的基金项目申请需提交最多两页的数据管理计划, 以明确如何共享和发布研究数据以便长期供第三方共享, 内容包括描述所有资源产生的元数据, 如“数据、样本、物理资源、软件、课程资源的类型”, 以及如何使用数据和元数据格式和内容的标准, 或相应的描述等
6、。2 面向共享的科技信息资源元数据生命周期模型J.Barton 等认为9, 元数据生命周期模型是揭示元数据技术层面的资源库及共享服务相互关系而构建的概念模型, 模型应涵盖元数据效果、元数据质量及工作流, 模型不仅应包括资源库本身的相互关系, 还应包含存储对象及其元数据的生命周期描述。Chen Ya-Ning 等认为10, 元数据生命周期模式是系统描述元数据工作过程的模型, 具有需求评估和内容分析、系统要求、元数据系统和元数据服务及评价 4 个阶段, 每个阶段包含若干元数据相关活动或事件。图1 是借鉴上述这些已有成果, 结合科技信息资源的特点和运动规律而构建的科技信息资源元数据生命周期模型。该模
7、型以科技信息资源元数据的“预处理、生产、传播、后处理”4 个逻辑阶段为主线, 每个管理步骤包含了若干科技资源元数据相关事件, 这些事件系统性描述了科技信息资源元数据的运动和管理过程, 从多角度揭示了科技信息资源元数据自身运动规律及其与相关的责任者流、业务流之间的互动关系。图 1 科技信息资源元数据生命周期模型 下载原图图 1 中的预处理阶段是科技信息资源元数据的规划阶段, 包括元数据政策、功能需求分析 (元数据框架) 及元数据和对象数据的信息系统设计等事件。这个阶段可借鉴等 DCMI 的元数据应用纲要 DCAP11等研究成果面向科技信息资源业务流程开展领域模型构建和规划。理想状态的科技信息资源
8、元数据预处理阶段最好能与科研项目管理平行开展计划、安排和构建, 但在实践中, 常常是元数据的规划滞后于业务和信息系统, 为实现元数据功能, 常常要对现有管理模式和流程进行调整。图 1 中的生产阶段是科技信息资源元数据的来源及范围等原则确定阶段。这个阶段可借鉴各种相关元数据集来对元数据项进行规范。在元数据来源方面, 科研人员等资源生成者可提供描述类元数据, 科技计划项目管理系统可导出相关描述性和结构性元数据, 元数据也可通过系统间收割间接生成, 音视频等多媒体元数据可通过算法等技术手段自动或半自动生成。NISO12强调了研究人员、技术人员和信息专家在创建元数据时的合作, 最典型的是数字化或创建数
9、字对象的技术人员创建管理元数据或结构元数据, 由资源生成者提供描述元数据, 在科学数据集方面尤其应该如此。其中元数据作为描述数据的数据, 其形成不可能早于所描述数据的形成, 元数据形成的最理想状态是元数据随着原生数据的产生而自然产生, 并随着业务过程和信息系统的管理逐步增加和完善。图 1 中的传播阶段描述了科技信息资源元数据在信息系统的传播过程, 包括异构数据库间的元数据收割互操作, 元数据质量控制及通过元数据注册实现格式统一等事件。图 1 中的后处理阶段是指元数据面向用户的技术操作, 包括元数的利用、保存和互动反馈提升等事件。其中, 采用 XML, Ontology 等语义研究成果, 采用元
10、数据注册和命名空间等实现网络环境下科技信息资源数据关联, 是后处理阶段的发展趋势。3 生产阶段的科技信息资源元数据元素集确定原则G.Alemu 等认为13, 元数据简单化是一个用户的问题, 但元数据的丰富性是由于大量的语义关联和越来越与内容相关, 所以, 那些简化元数据的尝试, 如MARC 转化为 DC, 或从复杂元数据集抽取简化版 (元数据派生) 的方法, 在语义互操作方面看是错误的目标。科技信息资源元数据元素集的确定需要结合科技信息资源形成、传递和利用 3 个业务活动维度的信息, 将共有的元数据项作为核心元数据, 根据应用场景开展特征扩展元数据分析, 以适应变化的应用环境。科技报告是用于描
11、述科学或技术研究的过程、进展和结果, 或描述一个科学或技术问题状态的文献14, 与其他科技信息资源一样, 其元数据也涉及形成、传递和利用 3 个科技报告活动维度, 涉及报告撰写者、项目管理者、报告发行者等相关责任者。美国是科技报告建设最完备的国家, 其科技报告元数据涉及3 种应用场景:科技报告撰写、科技报告提交和科技报告数据库服务。表 1 对上述 3 种美国科技报告典型场景元数据集与我国科技报告元数据规范国家标准进行了具体元数据项的对比分析。从表 1 可以看出, GB/T 30535-2014 科技报告元数据规定的基础元数据项很完备, 但传播共享的管理元数据、技术环境的技术元数据等则还相对缺失
12、。美国能源部 STI 元数据对提交报告格式元数据规定得很详细, 是 DC 元数据的很好应用实例。美国 NTIS 制定了多达 20 项的科技报告核心元数据, 供其他组织租赁NTIS 数据库进行内部使用时考虑, 元数据包括定义、示例及备注, 如合同号或授权号元数据、来源机构元数据等。美国标准 Z39.19 元数据项主要集中在创作者、目次、摘要等描述元数据方面, 标准附录对元数据项进行了 XML 结构性描述。表 1 国内外科技报告典型场景元数据集 下载原表 表 1 国内外科技报告典型场景元数据集 下载原表 表 1 中的科技报告元数据元素集也可按图 2 所示的核心元数据和应用扩展元数据进行分类。应用扩
13、展元数据根据应用场景可分为图 2 所示的生产特征元数据、提交特征元数据和利用特征元数据。其中核心元数据为各个场景元数据集及标准中共有的元数据项, 如主题、描述、摘要、权限等。科技报告生产特征元数据主要参考美国科技报告撰写标准和我国科技报告元数据国家标准, 涉及关联、馆藏等信息;科技报告提交特征元数据主要参考美国能源部 STI 元数据项, 包括格式、计划号、合同号等;科技报告利用特征元数据可主要参考美国 NTIS 数据库特征元数据项, 包括来源机构、可获取性声明、页码等信息。图 2 科技报告核心元数据和应用扩展元数据 下载原图4 传播阶段的科技信息资源元数据收割实践研究美国 NASA 采用 OA
14、I-PMH 协议实现 SDI 元数据收割18, OAI-PMH 协议是网络环境下实现元数据收割的互操作协议, 该协议有两类数据参与者:数据提供者 (Data Provider, DP) 和服务提供者 (Service Provider, SP) , 其中数据提供者作为元数据资源的拥有者, 承担元数据管理系统的功能, 当元数据较少时可通过手工方式完成其注册管理, 但当元数据量较大时, 需要建立专门的元数据注册系统。根据我国科技报告元数据收割实践, 元数据收割中可能会出现如下问题: (1) 缺失元数据项。收割的元数据缺少需要的元数据项; (2) 不正确的数据。元数据值不符合标准元数据使用的规范值;
15、 (3) 混乱的数据。同一元数据元素可能会有不同的值, 并混有别的标记, 如 HTML 标记; (4) 不完整的数。如主题词、学科分类没有提供参考受控词表、分类表等。这些问题的解决需要构建一个元数据收割管理系统。图 3 是借鉴我国国家科技计划科技报告管理办法19等具体科技信息资源管理规定, 构建的面向不同组织、不同机构的 (如来自不同计划项目、不同计划管理部门的科技信息资源汇集) 科技信息资源元数据收割管理系统, 系统中的科技信息资源元数据采用 DC 格式。图 3 多来源下的科技信息资源元数据收割管理模型 下载原图从图 3 中可以看出, 不同系统、不同来源的科技信息资源元数据可通过 OAI 收
16、割协议进入统一的系统, 经过安全转移后进入图 3 所示的质量校验, 通过技术手段确保科技信息资源元数据格式的一致性。规范化后的科技信息资源元数据既确保了元数据项的完整、统一, 又能追溯来源, 实现兼容和互操作。5 我国科技信息资源元数据研究和实践改进建议当前我国科技信息资源元数据相关研究主要侧重在从技术和文献资源层面的构建、分析和运用20-21, 从科技资源元数据生命周期视角开展对科技计划项目元数据的综合性分析研究还比较少, 在实际操作时相关文件中只有对科技信息资源元数据的原则性要求, 缺乏具体操作指南导致科技信息资源元数据实施效果不佳。另外, 多年来美国 NSF 和其他基金管理机构通过指南的
17、方式要求项目承担者提供元数据, 近年来更是将具体元数据要求融入 SDI 等相关管理系统中, 规范和促进了科技信息资源的共享和互操作。借鉴美国等国外相关经验, 我国科技信息资源元数据应加强以下几方面的研究和实践:5.1 加强元数据责任者研究当前我国科技信息资源元数据侧重于从科技项目申报系统中抽取和转化, 还没有按不同信息类型要求数据创建者提交科技信息资源元数据的详细规定。在文件管理领域, ISO23081-122文件元数据模型将文件元数据分为法规、责任者、业务、文件四种主要类型, 标准指出在文件捕获节点上, 需要对涉及文件创建、文件管理过程、授权使用的责任者加以确认, 文件捕获后需要保证在系统中
18、仅限于相应责任者才有利用文件、使用文件系统及执行文件管理操作等权限。在国外科研领域, 通过元数据提交操作指南指导数据提供者提交元数据并由提供者验证元数据的质量, 在元数据生命周期中通过数据专家等实现元数据专业性管理是美国等国外科技信息资源元数据的通行做法。因此, 我国科技信息资源元数据应加强元数据责任者要素的研究和实践, 在科技信息资源元数据生命周期中将元数据作者、元数据管理者和元数据用户进行整体考虑, 明确不同类型元数据责任者的职责。5.2 加强多媒体科技信息资源元数据集成服务研究当前我国科技信息资源元数据研究和实践还局限于文本资源和科学数据, 多媒体、视频、在线会议和音频等类型科技信息资源
19、元数据还没有较好的研究和实践方案。在美国, OSTI 国家实验室作者和研究机构使用 E-Link 提交系统 (DOE STI Management System) 16提供元数据和全文链接, 其科研成果包括文本、音视频、数字等多种媒介格式, 其 STI 产品包括技术报告、会议论文和 PPT, 期刊论文、学位论文、科技计算机软件、视频, 项目文件和工作论坛报告、公开获取的科学研究数据库。视频格式 (可以自动下载和检索) 有 WMA, WMV, MPEG, MP2, MP3, MP4, 不能自动下载和检索的视频格式有 ASF, AVI, Apple Core Vidio, DV Core Vide
20、o, Adobe Flash, Quick Time 和 Real Media 多种类型。在当前, 多媒体科技信息资源, 视频、在线会议和音频科技信息资源正越来越普遍, 传统的“文本科技信息资源”由于多媒体嵌入而发生改变。因此, 我国科技信息资源元数据应加强多媒体科技信息资源元数据研究, 在实践中参考国外成功科学技术信息集成系统, 构建包含多媒体科技信息资源在内的科技信息资源及元数据的集成管理系统, 实现科技信息资源整合性共享服务。5.3 加强科技信息资源元数据组织行为研究当前在我国, 科技信息资源元数据还未完全融入管理意识和管理模式中, 我国科技计划项目管理活动和过程中, 科技信息资源的描述
21、元数据和管理元数据零散分布在各项目节点要求报送的各类文档中。独立于 Schema 的科技信息资源可视化元数据管理软件、注册软件、培训软件还很缺乏。计划项目管理人员、信息系统管理人员、科研人员等科技活动各主体之间存在对元数据的认识偏差, 或只是将元数据作为技术手段和工具, 或认为元数据只是数据系统、信息系统和信息中心的事情, 或认为元数据只是数据而不是科技资源的有机组成部分。因此, 借鉴 E.L.Westbrooks23的元数据管理是指元数据政策的执行以及与元数据标准的一致性的管理思想, 参考 CCLRC Data Portal Project 制定 CCLC Core Scientific M
22、etadata Model 等模式, 将科技信息资源元数据分解为业务、信息技术及信息组织 3 类, 对科技管理人员、科研人员及一般用户开展针对性培训, 加强相关责任者元数据相关信息素养培养, 通过简洁而清晰的计划, 组织和推广, 确保科技信息资源元数据的实施应用效果。参考文献1DOE scientific and technical information program.Scientific and technical information (STI) definedEB/OL.2017-07-04.https:/www.osti.gov/stip/stidefined 2NASA sci
23、entific and technical information program.What is the NASA STI programEB/OL.2017-07-04.https:/www.sti.nasa.gov/what-is-the-nasa-sti-program/#.WUo I7ywjp Iw 3DOE scientific and technical information program.definitionsEB/OL.2017-07-04.https:/www.osti.gov/stip/definitions 4MAGUIRE S, FRIEDBERG J, et a
24、l, A metadata-based architecture for user-centered data accountabilityJ.Electron Markets, 2015 (25) :155-160. 5The Nature Environment Research Council.NERC discovery metadata standard.EB/OL.2017-07-04.http:/data-search.nerc.ac.uk/documents/metadatastandard_v1.0.pdf 6North Pacfific Research Board.Dis
25、semination and sharing of research resultsEB/OL.2017-7-2.http:/www.nprb.org/projects/metadata.html 7Government of India.National Data Sharing and Accessibility Policy-2012EB/OL.2017-7-6.http:/www.ogpl.gov.in/NDSAP/NDSAP-30Jan2012.pdf 8National Science FoundationEB/OL.2017-07-02.https:/www.nsf.gov/bf
26、a/dias/policy/dmp.jsp 9BARTON J, ROBERTSON R J.Developing a metadata lifecycle modelC/Co LIS05Proceedings of the 5th international conference on Context:conceptions of Library and Information Sciences, 2005:249-250. 10Chen Ya-Ning, Chen Shu-Jiun.Metadata lifecycle model and metadata interoperability
27、C.5th International Conference on Conception of Library and Information Science, 2005. 11Dublin Core Metadata Initiative.Guidelines for Dublin Core application profilesEB/OL.2017-7-7.http:/dublincore.org/documents/profile-guidelines/ 12National Information Standards Organization.Understanding metada
28、taEB/OL.2017-07-07.http:/www.niso.org/publications/press/Understanding Metadata.pdf 13Alemu G, Stevens B, Ross P.Towards a conceptual framework for user-driven semantic metadata interoperability in digital libraries A social constructivist approachEB/OL.www.em 307-4803.htm 14ANSI/NISO, Z39.18-2005
29、(R2010) , Scientific and Technical Reports-Preparation, Presentation, and preservationEB/OL.2017-09-07.http:/www.niso.org/apps/group_public/project/details.php?project_id=67 15全国信息与文献标准化技术委员会.GB/T 30535-2014 科技报告元数据规范S.北京:中国标准出版社, 2014. 16United States Department of Energy Link System (E-Link) EB/OL
30、.2017-07-07.https:/www.osti.gov/elink/forms.jsp 17The NTIS database search guideEB/OL.2017-7-7.http:/ 18Scientific and technical information programEB/OL.2017-07-07.https:/www.sti.nasa.gov/find-sti/#ntrsharvest 19科技部.国家科技计划科技报告管理办法EB/OL.2017-07-70.http:/ tm 20袁烁峰, 林小露.基于共性元数据规范的科技计划项目数据资源整合J.科技管理, 2
31、012 (4) :19-21. 21朱兴国, 武少波, 夏显鄂.基于元数据的数据共享系统框架设计研究J.科协论坛, 2010 (4) . 22Technical Committee ISO/TC46.ISO 23081-1:2006.Information and documentation-Records management processes-Metadata for records Part 1:PrinciplesS.Geneva:International Organization for Standardization, 2006 23WESTBROOKS E L.Remarks on metadata managementJ.OCLC Systems&Services, 2005, 21 (1) :5-7.