收藏 分享(赏)

科学数据库核心元数据标准.pdf

上传人:精品资料 文档编号:10656888 上传时间:2019-12-16 格式:PDF 页数:39 大小:425.33KB
下载 相关 举报
科学数据库核心元数据标准.pdf_第1页
第1页 / 共39页
科学数据库核心元数据标准.pdf_第2页
第2页 / 共39页
科学数据库核心元数据标准.pdf_第3页
第3页 / 共39页
科学数据库核心元数据标准.pdf_第4页
第4页 / 共39页
科学数据库核心元数据标准.pdf_第5页
第5页 / 共39页
点击查看更多>>
资源描述

1、 I项目编号 INFO-115-C01文档编号 TR-REC-014 中国科学院数据应用环境建设和服务 科学数据库核心元数据标准 (版本号 2.2) 中国科学院数据应用环境建设和服务项目组 2009 年 10 月 II目 录 1 范围 3 2 规范性引用文件 . 3 3 术语和定义 . 3 4 符号和缩略语 . 4 4.1 缩略语 . 4 4.2 数据集标识(URI)命名规则 4 4.3 网址和文件名 . 4 4.4 日期 . 4 4.5 图例说明 . 5 5 一致性 . . 6 6 约定 7 7 核心元数据 . 7 7.1 概述 . 7 7.2 数据集元数据 . 8 7.2.1 描述信息 .

2、 9 7.2.2 元数据参考信息 20 7.2.3 联系信息 22 附录 A 元数 据扩展和应用方案 . 25 A.1 元数据标准扩展的必要性 25 A.2 元数据应用方案 25 附录 B 科学 数据库元数据标准使用指南 . 30 B.1 元数据标准定制 30 B.2 元数据内容著录和工具 32 附录 C 代码表 . 34 3科学数据库核心元数据 1 范围 本标准面向中国科学院数据应用环境建设与服务项目规定了各种需求层次的元数据应用所需要的最小元数据元素(简称为核心元数据) ,以及为满足各学科领域的特殊需求,对元数据进行扩展和制定元数据应用方案的规则和方法。 本标准适用于科学数据库的编目和描述

3、、组织管理,也可用于数据资源的交换、集成和服务。 2 规范性引用文件 下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅所注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。 TR-REC-017 资源唯一标识符规范 3 术语和定义 下列术语和定义适用于本标准。 3.1 数据集 Dataset 可标识的数据集合。一个数据集可能是一个较小的数据集合,在物理上或逻辑上位于 一个较大的数据集之内;反之,一个数据集也可能由若干数据集组成,是这些子数据集的父数据集。理论上,一个数据集可以小到单个数据文件或关系数据库中的单个数据表,大到图像、音频、视频

4、、软件等也可以被视为数据集。 3.2 数据集类型 Dataset type 根据数据集的结构或资源特征,对数据集所作的类型划分。 3.3 数据类型 Data type 对数据的有效值域及对该值域中的值所允许的操作的规定。例如,整型、实型、布尔 型、日期类型、字符串类型等。对于复合元素,其数据类型用“复合类型”来标识。 3.4 元数据 Metadata 关于数据的数据。本规范中,具体指描述数据及其环境的数据。 3.5 元数据元素 Metadata element 元数据的基本单元。 本文档中对每一个元数据元素的定义都用一个包含九个属性的集合 来描述,这些属性是中文名称、英文名称、标识、定义、类型

5、、值域、可选性、最大出现次4数、注释。 3.6 模块 Module 该标准按照层次结构组织元数据元素,不同的数据元素和复合元素组成一个模块。该层 次结构的最高起始点为复合元素“数据集元数据” ,该复合元素由其它表示数据集不同方面特征的复合元素构成,即本标准中的三个模块描述信息模块、元数据参考信息模块和联系信息模块。模块是本标准中一个最大的组织单位。 3.7 复合元素 Compound data element 一个复合元素是由若干数据元数据元素、或者元数据数据元素与其它复合元素、或者若 干其它复合元素共同组成的。它通常用来表示较高层次的概念。 3.8 实体 Entity 按一定结构组织起来的数

6、据的集合,其结构可以用一组属性来刻画。例如,关系数据库 中的数据表就是一个典型的实体代表。 4 规则和缩略语 4.1 缩略语 URI 统一资源标识符( Uniform Resources Identifier) 4.2 数据集标识( URI) 数据集标识对于数据集资源描述和发现的意义和重要作用, 和其他资源特别是网络资源的标识具有同样的重要性,用来实现数据资源在网络环境下的唯一识别数据集。数据集 URI命名执行 TR-REC-017 资源唯一标识符规范 。 4.3 网址和文件名 对于其他的资源,如文件名、计算机系统的网络地址等也应遵循 Internet 的“统一资源标识符 URI” 的规定。

7、有关 URI约定的详细信息, 请参阅 http:/www.ietf.org/rfc/rfc2396.txt。 4.4 日期 有关日期的规定,采用 ISO 8601 关于日期的表示格式,即 YYYY-MM-DD 的形式。其中, YYYY 是公历的年份, MM 是一年中的月份, DD 是一个月中的天。 例如: 2003-04-01 表5元素标识元素标识元素标识元素标识示 2003 年 4 月 1 日, 2002-06 表示 2002 年 6 月, 1999 表示 1999 年。 3.4.1 时间 有关一天中时间的规定,采用 ISO 8601 关于时间的表示格式,即使用 24 小时的计时方法: hh

8、:mm:ss。其中, hh 表示一天中自午夜之后的小时数, mm 表示某一小时自开始之后的分钟数, ss 表示某一分钟自开始之后的秒数。例如: 23:59:59 表示午夜之前的 23 点 59分 59 秒, 06:10 表示早上 6 点 10 分, 12 表示中午 12 点。 3.4.2 日期和时间 有关日期和该日期中时间的表示,采用 ISO 8601 中同时表示日期和时间的格式:YYYY-MM-DDThh:mm:ss 。其中的大写字母 T 用于分割日期和时间。例如:2003-04-01T13:01:02 表示 2003 年 4 月 1 日下午 1 点 1 分 2 秒。 4.5 图例说明 图

9、4-1 表示: A 为一个复合元素,它有四个子元素 B、 C、 D、 E,其中: B 为必选元素但不可重复著录(即必须著录且只能著录一次) 。必选但不可重复著录元素 用来表示。 C 为可选元素但不可重复著录(即可著录也可不著录,最大著录次数为一次) 。可选但不可重复著录元素用 来表示。 D 为必选元素且可重复著录(即必须著录,不限制著录次数) 。必选且可重复元素用 来表示。 E 为可选元素且可 重复著录(即可著录也可不著录,不限制著录次数) 。 可选且可重复元素用来表示。 图 4-1 元素的必选性、可选性和可重复性 6图 4-2 元素的选择关系 图 4-2 表示:复合元素 A 的三个子元素 B

10、、 C、 D 之间存在着选择关系,三者不能同时著录。即,如果著录了 B,则不能著录 C 和 D;同理,著录了 C,则不能著录 B 和 D;著录了 D,则不能著录 B 和 C。元素之间的选择关系用 来表示。 图 4-3 复合类型 图 4-3 表示: 虚线框的作用在于更清晰地标示出 A 为一个复合元素以及 A 所包含的子元素,虚线框左上角的字符串 AType 是为元素 A 定义的复合类型名称。 图 4-4 元素引用 图 4-4 表示:元素 A 为含有三个子元素的复合元素,其子元素 B、 C、 D 已经被分别定义为单独的元素,此处被元素 A 直接引用,能体现体系内部元素的复用。 5 一致性 本标准定

11、义的元数据元素在第 7 章中阐明。 用户制定的元数据扩展和应用方案照附录 A 中的要求和规定定义和描述。 一个声明与本标准严格一致的元数据应用方案只包括本标准中定义的元数据元素、 元数据实体和元数据子集。 一个声明与本标准一致的元数据应用方案可包括扩展的元数据元素和元数据子集。 76 约定 对于每个元数据元素,本标准从语义和语法两方面进行描述。具体来说,使用以下 9个属性(基于 GB/T 18391.3-2001 定义有关属性)进行定义: a)中文名称 赋予元数据元素的一个中文标记。 b)英文名称 元数据元素的英文名称,一般用英文全称。 c)标识 用字符串表示的元素标识。 d)定义 对元数据元

12、素含义的解释,以使之与其他元数据元素在概念上相区别。 e)类型 元素所属数据类型,如复合类型(即该元素为复合元素) 、整数类型、实数类型、文本 类型等。 f)值域 元数据元素所允许的值的集合。 g)可选性 元素是必选元素还是可选元素。 h)最大出现次数 元素所允许的著录次数,如 1(不可重复著录) 、 n(可重复著录无限次)等。 i)注释 对元素的补充说明、著录格式的建议及其它。 7 核心元数据 7.1 概述 核心元数据面向数据集层次的科学数据资源,定义了一组元数据模块和元素。核心元数据主体包括描述信息、 元数据参考信息二个主要复合元素模块, 且二者均为必选模块。 此外,还包括联系信息一个辅助

13、模块,此模块不可单独使用,供其它模块的特定元素在需要的时候进行引用。 7.1.1 描述信息 描述信息模块是记录数据库数据集基本信息模块,是一个必选模块。通过使用描述信息模块,建库单位可以对数据集的基本属性信息进行详细描述,例如数据集名称、简介、创建者、来源等,数据集用户可通过浏览这些描述信息对数据集形成一个总体了解。 7.1.2 元数据参考信息 8元数据参考信息模块是关于数据集元数据本身状态的信息,为必选模块,包括元数据标准名称、元数据创建日期、元数据联系信息等内容。通过该模块,一方面,数据集用户可以了解到与元数据记录的建立有关的信息,另一方面,元数据参考信息将有助于元数据维护人员进行元数据的

14、修改与维护。 7.1.3 联系信息 联系信息模块记录与数据集有关的联系信息。该模块不可单独使用,而是被主要模块的有关元素引用。 7.2 数据集元数据 中文名称:数据集元数据 英文名称: Dataset Metadata 标识: Dataset 定义:关于数据集的内容、权限和其它信息的数据 类型:复合类型 注释:由描述信息、元数据参考信息两个主要模块组成。联系信息是其一个辅助模块,它不能单独使用,只能被主要模块在需要时引用。 9图 7-1 描述信息 7.2.1 描述信息 中文名称:描述信息 10英文名称: Description Information 标识: DescriptionInfo 定

15、义:关于数据集的基本描述信息 类型:复合类型 可选性:必选 最大出现次数: 1 注释:是关于数据集的名称、简介、创建日期、创建者等的基本信息,着重描述数据资源的一些基本属性,且与 DC、 CSDGM 等国际上主要的元数据标准的相应元素基本一一对应。 7.2.1.1 名称 中文名称:名称 英文名称: Title 标识: Title 定义:数据集的全名 类型:文本 值域:自由文本 可选性:必选 最大出现次数: 1 注释:数据集中文名称指数据集对象的正式公开的全称。 ,当描述对象是科学数据库系统中的数据库时,科学数据库参建单位名称参见附录 C 代码表 1 7.2.1.2 别名 中文名称:别名 英文名

16、称: Alias 标识: Alias 定义:数据集的其他名称。 类型:文本 值域:自由文本 可选性:可选 最大出现次数: N 注释:有些数据集除中文全称外,还有其他各种名称,诸如常用简称、缩写等等,所有这些名称均著录在该元素下。 7.2.1.3 URI 中文名称: URI 英文名称: URI 标识: URI 11定义:根据 4.2 数据集 URI 命名规则,数据集创建单位赋予数据集的唯一标识符。 类型:文本 值域:唯一标识符命名字符集和有效分割符“ .” 。 可选性:必选 最大出现次数: 1 注释:在本标准第一部分的 4.2 “数据集标识命名规则”中明确规定了数据集唯一标识符的命名字符集及命名

17、规则。 对于科学数据库项目内所有数据集的唯一标示符命名应该严格遵循上述规定。当描述对象是科学数据库系统中的数据库时,科学数据集 URI 前缀参见附录 C 代码表 1 7.2.1.4 关键词 中文名称:关键词 英文名称: Keyword 标识: Keyword 定义:由用户自由选取的描述数据集内容的词语 类型:文本 值域:自由文本 可选性:必选 最大出现次数: N 注释:由用户自由选取的能够准确描述数据集内容的词语,此元素必选。 7.2.1.5 简介 中文名称:简介 英文名称: Introduction 标识: Introduction 定义:对数据集内容的文本介绍 类型:文本 值域:自由文本

18、可选性:必选 最大出现次数: 1 注释:简介可以包括但不限于以下部分:摘要、目录、对以图形揭示内容的数据集的文字说明,或者其它有关数据集内容的自由文本描述。 7.2.1.6 目的 中文名称:目的 英文名称: Purpose 标识: Purpose 定义:对开发该数据集的目的的说明 12类型:文本 值域:自由文本 可选性:可选 最大出现次数: 1 注释:是对开发数据集的目的的自由文本形式的简要叙述,以使数据集检索者了解数据集的背景知识。 7.2.1.7 数据分类 中文名称:数据分类 英文名称: Taxonomy 标识: Taxonomy 定义:数据资源的内容所涉及的分类 类型:复合类型 可选性:

19、可选 最大出现次数: N 注释:在本标准中,数据分类包含“类目名称”和“分类表”两个子元素,对于科学数据库中的多数数据资源来讲, 学科分类主要依据中华人民共和国国家标准学科分类与代码表 GB/T 13745-92,并根据科学数据库的特点和资源类型的范围,对部分学科进行了展开。同时,根据科学数据的具体内容,也可参考图书分类法、档案分类法等其他权威分类体系进行著录。 7.2.1.7.1 类目名称 中文名称:类目名称 英文名称: Taxonomic Category 标识: TaxonomicCategory 定义:数据资源的内容所属的类目名称 类型:文本 值域:自由文本 可选性:必选 最大出现次数

20、: N 7.2.1.7.2 分类表 中文名称:分类表 英文名称: Reference Taxonomy 标识: RefTaxonomy 定义:数据资源的内容所属的分类体系 类型:文本 值域:自由文本 13可选性:必选 最大出现次数: 1 7.2.1.8 范围 中文名称:范围 英文名称: Coverage 标识: Coverage 定义:数据集内容所涉及的时间和空间范围 类型:复合类型 可选性:可选 最大出现次数: 1 注释:该复合元素包括时间范围和空间范围两个元素。根据数据集内容的实际需要进行著录。 7.2.1.8.1 时间范围 中文名称:时间范围 英文名称: Temporal Range 标

21、识: Temporal 定义:数据资源的内容所涵盖的时间范围 类型:文本 值域:自由文本 可选性:可选 最大出现次数: 1 注释:数据资源的内容所涵盖的时间范围可以是单个时间点,也可以是时间段,包括开始时间和结束时间等。有关日期和时间著录格式,请参阅“符号和缩略语”一节。 7.2.1.8.2 空间范围 中文名称:空间范围 英文名称: Spatial Range 标识: Spatial 定义:数据资源的内容所涵盖的空间范围 类型:文本 值域:自由文本 可选性:可选 最大出现次数: 1 注释:数据资源的内容所涵盖的空间范围既包括平面空间范围,也涉及到空间范围,特别是地理数据资源,可通过平面与垂向的

22、组合实现对三维空间的范围描述。 7.2.1.9 数据来源 14中文名称:数据来源 英文名称: Source 标识: Source 定义:对其他资源的参照,当前数据资源部分或全部源自这些参照资源。 类型:文本 值域:自由文本 可选性:可选 最大出现次数: 1 注释:当前数据集可能部分或全部源自于数据来源元素所标示的资源。 7.2.1.10 类型 中文名称:类型 英文名称: Type 标识: Type 定义:对数据集所属类型的说明 类型:文本 值域:附录 C 代码表 2 可选性:必选 最大出现次数: 1 注释:对数据集的分类。在科学数据库中,数据集主要指关系型数据库和文件系统,此外,也可以将图像、

23、音频、视频、软件等视为数据集。 7.2.1.11 创建者 中文名称:创建者 英文名称: Creator 标识: Creator 定义:创建数据集的组织机构。 类型:文本 值域:当描述对象是科学数据库系统中的数据库时,科学数据库参建单位名称见附录 C 代码表 6 可选性:必选 最大出现次数: N 注释:当描述对象是科学数据库系统中的数据库时,科学数据库参建单位名称见附录 C 代码表 6,该代码表列出了中国科学院系统内可能的数据集创建者。 7.2.1.12 其他贡献者 中文名称:其他贡献者 英文名称: Contributor 15标识: Contributor 定义:除创建者之外,对数据集内容创建

24、做出贡献的个人或组织。 类型:文本 值域:自由文本 可选性:可选 最大出现次数: N 7.2.1.13 创建日期 中文名称:创建日期 英文名称: Creation Date 标识: CreationDate 定义:数据集内容的创建日期 类型:日期类型 值域:自由日期 可选性:必选 最大出现次数: 1 注释:一般来说,数据集创建是一个阶段性工作,建议“数据集创建日期”使用数据集创建相对完整、完善时的日期。有关日期格式规定,参阅“符号和缩略语”一节。 7.2.1.14 更新频率 中文名称:更新频率 英文名称: Update Frequency 标识: UpdateFrequency 定义:描述数据

25、集在多长的时间内更新一次 类型:文本 值域:附录 C 代码表 3 可选性:可选 最大出现次数: 1 注释:数据更新频率可以作为评价数据的新旧和数据质量的一项指标,建议用户在可能的情况下尽量提供该元素。 7.2.1.15 数据格式 中文名称:数据格式 英文名称: Data Format 标识: DataFormat 定义:数据集或其所包含文件的数据格式 类型:文本 16值域:自由文本,数据格式可参考附录 C 代码表 5 列出的可能格式。 可选性:可选 最大出现次数: N 注释:对于数字化形式的数据集,建议根据本学科实际应用到的数据格式尽可能著录该元素。 如果数据集包含多种格式的文件, 可重复著录

26、。 数据格式可参考附录 C 代码表 5 列出的可能格式。 7.2.1.16 数据量 中文名称:数据量 英文名称: Size 标识: Size 定义:数据集所包含数据量的说明 类型:复合类型 可选性:可选 最大出现次数: 1 注释:对于数字化形式的数据集,应尽可能对此元素进行著录。数据量的表示通常分为记录数和存储量(物理存储空间)两种形式,不同的数据集适用于采取不同的数据量计量形式。 7.2.1.16.1 记录数 中文名称:记录数 英文名称: Number of Records 标识: RecordNumber 定义:关系型数据库类型的数据集所包含的记录数 类型:整型 值域:非负整数 可选性:可

27、选 最大出现次数: 1 7.2.1.16.2 存储量 中文名称:存储量 英文名称: Memory Size 标识: MemorySize 定义:以数据集所占的物理存储空间表示的数据量 类型:文本 值域:自由文本 可选性:可选 最大出现次数: 1 17注释:著录方式为表示存储量的实数 +存储量单位,例如 5.98KB。用户可以根据需要选择 KB、 MB、 GB 等作为单位。 7.2.1.17 语种 中文名称:语种 英文名称: Language 标识: Language 定义:数据集内容所采用的语种 类型:文本 值域:自由文本 可选性:可选 最大出现次数: N 注释:科学数据库中所采用的主要语种为

28、汉语,著录可参考 ISO 639:语种代码表。 7.2.1.18 URL 中文名称: URL 英文名称: URL 标识: URL 定义:数据集提供网络服务的链接地址 类型:文本 值域:自由文本 可选性:可选 最大出现次数: 1 注释:连接数据集的有效链接。有关 URL 的格式,请参阅“符号和缩略语”一节。 7.2.1.19 关联 中文名称:关联 英文名称: Relation 标识: Relation 定义:与当前数据集或数据资源相关的其他数据集或数据资源 类型:复合类型 可选性:可选 最大出现次数: N 注释:分为关联数据集名称、关联 URI 和关联类型三个子元素。 7.2.1.19.1 关联

29、类型 中文名称:关联类型 英文名称: Relationship 标识: Relationship 18定义:关联数据集与当前数据集之间的关系类型 类型:文本 值域:附录 C 代码表 4 可选性:必选 最大出现次数: 1 注释:关联类型分为“包含” 、 “属于” 、 “相关”等三种。 7.2.1.19.2 关联数据集名称 中文名称:关联数据集名称 英文名称: Related Title 标识: RelatedTitle 定义:与当前数据集或数据资源相关的数据集或数据资源的题名 类型:文本 值域:自由文本 可选性:必选 最大出现次数: 1 注释:此元素表示在内容上与当前数据集有关系的数据集的名称,

30、与“关联类型”元素联合使用。 7.2.1.19.3 关联 URI 中文名称:关联 URI 英文名称: Related URI 标识: RelatedURI 定义:关联数据集的 URI 类型:文本 值域:自由文本 可选性:可选 最大出现次数: 1 注释:关联数据集的唯一标识,用户通过该标识可进一步了解此关联数据集。 7.2.1.20 数据质量 中文名称:数据质量 英文名称: Data Quality Information 标识: DQInfo 定义: 记录数据集的数据质量状况的信息 类型: 复合元素 可选性: 可选 最大出现次数: 1 19注释:主要记录数据集生产过程中采取的与数据采集、整理、

31、质量控制等有关的步骤及相关信息、以及数据集成品的质量评价分析结果等信息。此模块包含描述数据生产过程的“数据志”和描述成品数据集质量信息的“质量报告”两个子元素。 7.2.1.20.1 数据志 中文名称:数据志 英文名称: Lineage 标识: Lineage 定义:数据生产过程日志 类型: 文本 值域:自由文本 可选性: 可选 最大出现次数: 1 注释:对数据生产过程中所采取的数据采集、整理、质量控制步骤 /措施 /方法及其相关信息的描述。 7.2.1.20.2 质量报告 中文名称:质量报告 英文名称: Report 标识: Report 定义:对数据集数据质量有关信息的链接指向 类型:文本

32、 值域:自由文本 可选性: 可选 最大出现次数: N 注释:由于当前数据集质量研究的诸多成果无法直接应用到科学数据库项目中,且基于项目内数据集质量控制和评测的需求,科学数据库项目已启动对数据质量的研究,故此元素为指向数据集质量信息的链接地址,链向在数据质量相关成果的规约下的数据质量报告相关元数据。 7.2.1.21 权限声明 中文名称:权限声明 英文名称: Right Statement 标识: Rightstatement 定义:数据集所属权限的声明 类型:文本 值域:自由文本 可选性:可选 20最大出现次数: 1 注释:典型的权限声明包括对数据集的版权声明。除版权声明外,权限声明还包含对数

33、据集访问约束、使用约束以及其它限制的说明。访问约束指为了数据的保密或者保护知识产权而对数据集的访问和获取施加的任何限制, 例如某个数据集只限于一定的 IP 地址范围或者只限于某些机构才能访问和获取。使用约束是针对获取到数据集的用户而言的, 它包括为了数据的保密或者保护知识产权而对数据集的使用施加的任何限制和保证条款。 7.2.1.22 共享声明 中文名称:共享声明 英文名称: Share 标识: Share 定义:对数据集内容的共享说明 类型:文本 值域:自由文本 可选性:可选 最大出现次数: 1 注释:数据集允许共享的数据范围等相关说明。 图 7-2 元数据参考信息 7.2.2 元数据参考信

34、息 中文名称:元数据参考信息 英文名称: Metadata Reference Information 标识: MetadataReferenceInfo 定义:有关数据集元数据的信息 类型:复合类型 21可选性:必选 最大出现次数: 1 注释:数据集的元数据参考信息提供了依据的元数据标准名称和版本、有关元数据创建日期和元数据创建和维护者的联系方式等方面的重要信息。 7.2.2.1 元数据标准 中文名称:元数据标准 英文名称: Metadata Standard 标识: MetadataStandard 定义:著录此数据集所采用的元数据标准的名称和版本信息 类型:文本 值域:自由文本 可选性:

35、必选 最大出现次数: 1 注释: 建议使用元数据标准的正式标准全称和详尽版本号码。 7.2.2.2 元数据创建日期 中文名称:元数据创建日期 英文名称: Metadata Creation Date 标识: MetadataCreationDate 定义:数据集元数据的创建日期 类型:日期 值域:自由日期 可选性:必选 最大出现次数: 1 注释:有关日期格式的规定,请参阅“符号和缩略语”一节。 7.2.2.3 元数据联系信息 中文名称:元数据联系信息 英文名称: Metadata Contact Information 标识: MetadataContact 定义:数据集元数据创建和维护者的联

36、系信息 类型:复合类型( tContact) 可选性:必选 最大出现次数: 1 注释:参见本标准 7.2.3“联系信息”部分。 22图 7-3 联系信息 7.2.3 联系信息 中文名称:联系信息 英文名称: Contact Information 标识: tContact 定义:与数据集有关的个人和组织联系信息 类型:复合类型( tContact) 注释:此元素不能单独使用,可供其他内容引用, 。由于该部分信息多次为其他模块所引用,所以这里把该模块定义为一个类型,用来定义其他的元素即可,而在前面的描述中标准的其他模块也多次引用该模块。 7.2.3.1 联系人姓名 中文名称:联系人姓名 英文名称

37、: Contact Name 标识: ContactName 定义:与数据集有关的联系人员名称 类型:文本 值域:自由文本 可选性:可选 最大出现次数: 1 注释:当联系人为个人时,在此元素位置填写联系人的姓名。 7.2.3.2 单位 中文名称:单位 英文名称: Organization Name 标识: OrganizationName 定义:联系单位 23类型:文本 值域:自由文本 可选性:可选 最大出现次数: 1 注释:当联系人为某一单位或组织时,在此元素填写单位或组织的全称。 7.2.3.3 地址 中文名称:地址 英文名称: Address 标识: Address 定义:联系人的详细通

38、信地址和邮政编码。 类型:文本 值域:自由文本 可选性:必选 最大出现次数: 1 注释:是 7.2.3.1 中所填联系人的联系地址和邮政编码,建议把邮政编码放在联系地址后面的括号里。著录应尽可能详细,具体到街道、门牌号、信箱号或联系人所在单位、部门名称。 7.2.3.4 传真 中文名称:传真 英文名称: Fax 标识: Fax 定义:联系人传真号码 类型:文本 值域:自由文本 可选性:可选 最大出现次数: 1 注释:采用“ (区号)号码”或“ (区号)总机号分机号”格式。如果传真号码有不止一个,号码与号码之间用分号( “ ;” )分隔。 7.2.3.5 电话 中文名称:电话 英文名称: Pho

39、ne 标识: Phone 定义:联系人电话号码 类型:文本 值域:自由文本 24可选性:可选 最大出现次数: 1 注释:采用“ (区号)号码”或“ (区号)总机号分机号”格式。如果电话号码有不止一个,号码与号码之间用分号( “ ;” )分隔。 7.2.3.6 电子邮件 中文名称:电子邮件 英文名称: Email 标识: Email 定义:联系人电子邮件地址 类型:文本 值域:自由文本 可选性:可选 最大出现次数: 1 注释:采用用户名 域名的格式,如 。如果电子邮件地址有不止一个,电子邮件地址之间用分号( “ ;” )分隔。 25附录 A 元数据扩展和应用方案 A.1 元数据标准扩展的必要性

40、科学数据库学科广泛、数据类型复杂的特点,决定了不可能只制定一个元数据标准就可以描述所有的科学数据集,而是需要建立多个元数据标准,这些不同的元数据标准之间相互关联,构成一个完整的科学数据库元数据标准体系。当前的核心元数据( SDBCM)是整个科学数据库元数据标准体系中的一个核心部分, 只能提供较高层次的数据描述或者说满足部分数据集的描述需求,一些具有特殊应用背景的元素并没有纳入本标准中,因而难以满足多样化的用户需求。为此,科学数据库核心元数据( SDBCM)提供了一套扩展机制,在不破坏现有内容框架的前提下,有关单位、用户可以按照扩展机制所规约的规则和方法,根据自己的特殊需求对 SDBCM 进行扩

41、展,制定满足特定需求的元数据扩展标准或者说应用方案( Application Profile) 。 A.2 元数据应用方案 A.2.1 元数据应用方案简介 一个 Application Profile 是从一个或多个元数据标准(或名称空间, Namespaces)中选择元素,并可能创建一些新的元数据元素,所有这些元素共同组成一个新的元数据标准。 Application Profile 体现了元数据的模块性和可扩展性, 其目标是通过吸收或整合现有的元数据标准来满足特定应用的需求,同时,特定的元数据用户能够在一个更宽广的元数据体系中实现面向特定应用的元数据标准化。 Application Prof

42、ile 的一个优点是生成的新的元数据标准能够保持与原始基本元数据标准之间的互操作性增强元数据实例之间的语义交互性。 一个 Application Profile 允许创建对特定领域或组织至关重要的元数据元素,但该元素从一个更广泛的空间来看并不重要。 A.2.2 科学数据库核心元数据的扩展原则 所创建的元数据应用方案中应该包括SDBCM标准中的最小元素集,即包括所有必选模块中的所有必选元素;在一般的具体应用中,所创建的元数据应用方案中要包含SDBCM标准中的核心元数据元素; 在确定拟新增模块/元素与SDBCM中的模块/元素确实不存在语义重复之后,可以定义新的模块/元素。新增元素不可用于替换SDB

43、CM标准中现有元素的名称、定义或数据类型; 应将扩展元素合理地组织到SDBCM所确定的“模块复合元素数据元素”这一结构中去;新定义的复合元素可以包含新增元素也可以包含已定义元素; 允许对已有模块 /元素施以更严格的可选性限制,即可以在应用方案中将核心标准26中的某一可选模块 /元素设定为必选元素。注意,模块 /元素在应用方案中的可选性不能比其在核心标准中更宽松; 允许缩小已有元素的值域, 或者将已有元素的值域替换为一个由值域内若干值组成的代码表。例如,在核心标准中某个已有元素的值域为整数,那么应用方案中可以规定该元素的值域为某个范围内的整数; 允许对已有代码表进行必要或者面向特定应用的扩充;

44、一般不允许对本标准进行上述原则所没有允许的扩展。 但如果在实际应用中确实存在违反上述原则的扩展需求,需与本标准制定单位(中科院计算机网络信息中心)协商解决。 A.2.3 创建元数据应用方案的基本方法 添加新的元数据“模块” ; 添加新的元数据“复合元素” ; 添加新的元数据“数据元素” ; 创建新的代码列表缩小元素的现有值域; 创建新的代码表元素,对代码表进行扩充; 缩小现有元素的值域; 限制元素的可选性; 裁剪当前的标准结构和元素。 A.2.4 元数据应用方案的设计流程 分析元数据需求,并全面检查 SDBCM 元数据模块和元素(步骤 1) 首先要分析元数据要描述的资源对象是什么,描述的粒度有

45、多大,明确元数据描述的对象数据集所属的学科专业、资源类型以及其他资源特征。结合分析结果,仔细检查 SDBCM现有元数据模块和元素。 这种检查不仅应该覆盖元数据模块和元素的名称, 而且覆盖其定义、数据类型、可选性、值域、最大出现次数以及注释等,以确保对 SDBCM 所做的扩展都是符合扩展规则的。 方法: 1)如果核心元数据已经满足应用的需求,自然无需对核心元数据进行扩展; 2)如果标准现有模块不能满足需求,需要创建新的元数据模块,则进行步骤 2; 3)如果需要创建新的元数据复合元素来满足需求,则进行步骤 3; 4)如果需要创建新的元数据数据元素来满足需求,则进行步骤 4; 5)如果某个现有元数据

46、模块或元素可以满足需求,但是需要对其可选性作更严格的限制,则进行步骤 5; 6)如果某个现有元素可以满足需求,但是其值域过于宽泛,能够用一个代码表来限制其值域,则进行步骤 6; 7)如果某个现有元素可以满足需求,但是需要将作为其值域的代码表进行扩充,则进27行步骤 7; 8)如果某个现有元素可以满足需求,但是应用方案中所需值域只是核心元数据中所规定值域的一个子集,则进行步骤 8; 9)如果确定核心元数据中的某个可选元素确实不为应用方案所需要,即需要去除某个可选元素,则进行步骤 9。 定义新的元数据模块 (步骤 2) 如果现有模块不能从总体上满足需求,而且确定无法通过扩展其中任一模块来满足需求,

47、确实需要创建一个新的元数据模块,可以定义一个新的元数据模块。 应该以与 SDBCM 一致的风格来定义新创建的元数据模块, 即需要依次定义该新建模块的中文名称、英文名称、标识、定义、数据类型(对于模块来说,其数据类型为“复合类型” ) 、可选性、最大出现次数、注释等方面的属性。 方法: 1)通过步骤 3 来定义组成该模块的复合元素; 2)通过步骤 4 来定义组成该模块的数据元素; 3)进行步骤 10。 定义新的元数据复合元素 (步骤 3) 如果现有元数据复合元素不能满足需求, 而且确定无法通过扩展其中任一复合元素来满足需求,这种情况下,可以定义一个新的元数据复合元素来满足应用方案的特定需求。 应

48、该以与 SDBCM 一致的风格来定义新创建的复合元素, 即需要依次定义该新建复合元素的中文名称、英文名称、标识、定义、数据类型(其数据类型为“复合类型” ) 、可选性、最大出现次数、注释等方面的属性。 方法: 1)确定该复合元素的位置,即确定该复合元素属于哪个模块或者哪个复合元素。如果无法在现有结构(包括 SDBCM 的七个模块和已定义的新模块)中为该复合元素找到合适的位置,则进行步骤 2; 2)确定该复合元素所包含的元数据元素; 3)通过步骤 3 来定义组成该复合元素的新增复合元素; 4)通过步骤 4 来定义组成该复合元素的新增数据元素; 5)进行步骤 10。 定义新的数据元素 (步骤 4)

49、 如果现有数据元素不能满足需求,而且确定无法通过扩展其中任一数据元素来满足需求,这种情况下,可以定义一个新的数据元素来满足应用方案的特定需求。 应该以与 SDBCM 一致的风格来定义新创建的数据元素, 即需要依次定义该新建数据元素的中文名称、英文名称、标识、定义、数据类型、值域、可选性、最大出现次数、注释等九个方面的属性。 28方法: 1)确定该数据元素的位置,即确定该数据元素属于哪个模块或者哪个复合元素。如果无法在现有结构中为该数据元素找到合适的位置,则进行步骤 3; 2)进行步骤 10。 限制模块/元素的可选性(步骤5) 某个现有模块 /元素可以满足需求,但是应用方案需要对其可选性进行更严格的限制,即将其可选性由可选改为必选。若确定进行此改动,则进行步骤 10。 创建新的代码表 (步骤 6) 某个现有元素可以满足需求,但是,需要对其值域进行限制,而现有的代码表都不能满足需求,需要定义一个新的代码表来满足应用方案的特定需求。 如果新定义的代码表以某一国家或国际标准为依据,应注明该依据;如果新定义的代码表无据可查,则应在代码表中设置一栏,用来说明每个代码元素的含义。进行步骤 10。 定

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报