1、英美政府数据门户网站科学数据组织与查询研究 司莉 李鑫 武汉大学信息管理学院图书馆学系 武汉大学信息管理学院 摘 要: 政府数据门户网站的科学数据组织与查询功能是数据高效管理和利用的基础。通过考察英美政府数据门户网站的数据资源组织的具体方法和相应的数据浏览、检索功能, 分析了它们在数据组织与浏览、检索方面的特点。关键词: 科学数据组织; 数据检索; 数据门户; 作者简介:司莉 (1965-) , 女, 教授, 博士生导师, 武汉大学信息管理学院图书馆学系主任;作者简介:李鑫 (1990-) , 女, 武汉大学信息管理学院图书馆学 2012 级硕士研究生。收稿日期:2014-01-24基金:教育
2、部人文社会科学研究项目“我国科学数据集成与共享的保障研究” (项目编号:13YJA870016) 研究成果之一A Study on Scientific Data Organization and Retrieval of Government Open Data Portals in UK and USASI Li LI Xin Abstract: Data organization and retrieval are the bases of effective data management and utilization. By studying the data organizati
3、on methodology of UK and USA government open data portals, as well as the corresponding functions of data browse and data retrieval, the authors analyze the features of data organization, browse and retrieval of those government open data portals.Keyword: scientific data organization; data retrieval
4、; data portal; Received: 2014-01-240 引言2009 年美国政府开通 Data.gov 网站, 提供“一站式”数据服务, 随后英国、法国、澳大利亚等国政府也纷纷建立政府数据门户网站。采取合适的方式对政府数据门户网站科学数据进行组织是网站科学数据高效管理并提供利用和共享的前提。国内对科学数据组织研究的文章较少, 钱鹏针对高校科研数据提出了基于科研生命周期的三级管理模式1, 并基于资源描述框架提出图书馆科学数据资源描述框架模型2。其他学者则针对某一学科领域 (如医药卫生、地球科学等) 或对学科领域中科学数据共享平台的数据组织进行研究3-4。本文选取美国和英国政府数
5、据门户网站作为研究对象, 对其网站科学数据组织的具体方法以及相应的数据查询功能进行考察, 分析它们在数据组织与检索、浏览方面的特点, 以期对我国科学数据共享平台和政府数据门户网站的数据组织和管理有一定的借鉴作用。调查时间为 2013 年 12 月 15-25 日。1 英美政府数据门户网站数据组织与浏览、检索功能美国和英国政府数据门户网站 Data.gov 和 Data.gov.uk 均是数据可自由获取、公众与政府机构互动的、API 接口开放的数据共享平台。共享平台的科学数据组织就是对平台的数据资源进行选择、描述、整合和存储, 提供有序化的结构并形成一个有机整体的过程, 以便对数据资源进行存取和
6、利用。本文主要从数据描述与分类的角度调查英美政府门户数据网站数据组织的情况, 从数据的检索方式角度考察两者的数据查询功能。1.1 元数据标准元数据是关于数据的数据, 它对数据对象进行描述, 有助于用户发现、识别、评价、选择和使用数据资源, 实现数据资源的整合、共享、管理和长期保存5。Data.gov 和 Data.gov.uk 中每一个数据集下均著录有相应的元数据, 调查发现其元数据集复用了都柏林核心元数据集 (DC) , 并在 DC 的基础上有一定的扩展和补充6。由于网站的数据涉及学科领域范围广泛、数据发布者机构不同、数据量大、数据类型多样, 因此其在 DC 的基础上分别制定了通用核心元数据
7、标准、特定领域核心元数据标准。通用核心元数据标准为整个数据门户网站的数据资源提供一套通用的描述元素与规范, 其中, 元数据必选元素包括标题、摘要、关键词 (标签) 、更新日期、机构名称、联系人、联系人邮件、唯一标识符;特定领域必选元数据元素包括数据字典 (DataDictionary) 、URL、可获取端点、格式、数据集开放许可、地理范围 (Geographic Scope) 、时间范围 (Period of Coverage) 等;元数据可选元素包括发布日期、发布频次、数据质量、所属类别、相关参照等。特定领域元数据标准是基于通用核心元数据标准的扩展标准, 以满足特定学科和领域的特定需求。笔者
8、选取了 Data.gov 和 Data.gov.uk 中数据集较多的学科领域地学、海洋学, 对其元数据调查发现, 地学和海洋学的核心元数据集增加了 Spatial、Bbox East Long、BboxNorth Lat、Bbox South Lat、Bbox West Long 等描述空间属性的地理坐标元素, 这也是地学和海洋学科学数据的特征所在。另外, Data.gov 的部分数据集还提供了机构或部门提交时的元数据描述信息, 在一定程度上丰富了元数据信息。1.2 数据分类体系与浏览方式(1) Data.gov。数据分类体系是对数据共享平台收集的科学数据资源实施分类组织和用户进行浏览和检索的
9、依据与桥梁, 通常提供类似目录式的结构进行浏览。从宏观的角度, Data.gov 通过一套完整的元数据分类体系将网站中的各种格式的科学数据资源按三种分类编制成一级类目, 包括原始数据目录 (RawDataCatalog) 、工具目录 (ToolsCatalog) 和地理数据目录 (GeodataCatalog) , 并且这三个分类目录是具有交叉性的, 即他们所包含的数据资源是可重复的, 一个数据资源可存在两个以上的目录中。从微观角度, Data.gov 采用多种标准对科学数据资源进行分类与组织, 提供了7 种分类浏览方式:1 数据集类型分类。分为地理空间数据集和非地理空间数据集, 从侧面反映了
10、地理空间数据集在 Data.gov 数据资源中占了最大部分。2 标签分类。按照数据资源元数据中的标签分为气温、物理、海洋地质、风速、运输、气象等 50 类。3 媒体类型 / 格式分类。按照数据集中数据的格式分为KML、TXT、ZIP、XLS、HTML、CSV、PDF 等 49 类。4 主题分类。将不同机构的相关数据整合在一个大主题之下, 分为安全、研究、能源、农业、海洋、消费者、法律、生态、商业、制造业、金融、教育 12 个主题。5 组织 / 机构的类型分类。分为联邦政府、大学、州政府、当地政府、非营利组织、合作组织、商业机构和其他 8 类。6 组织 / 机构分类。按照数据集发布的组织 / 机
11、构分为:美国国家海洋大气管理局、美国地质勘探局、新墨西哥大学地球数据分析中心、国防部等 50 个组织 / 机构。7 主题类别分类。按照数据集所属主题的学科类别分为应用科学与技术、自然资源与环境、物理和海洋学、社会与行为科学、教育等 50 类, 并且类目是具有交叉性的。另外, Data.gov 的多维数据分类体系还具有一定的“组配”性质, 如可以选择组织类型与数据格式进行组配, 浏览选定的组织和类型的科学数据资源。(2) Data.gov.uk。Data.gov.uk 同样采用了多维数据分类体系, 提供了 6 种数据浏览方式:1 是否公开发布分类。根据数据集是否已经通过审核并公开发布分为已发布和
12、未发布 2 类。2 按照开放许可协议 (Licence) 分类。它分为遵守开放政府许可协议、没有公布的数据集 (Unpublished) 、不遵守开放政府许可协议 (NonOpen Government Licence) 3 类。3 主题分类。按照数据集所属的主题领域分为环境、政府财政、社会、政府、教育、商业与经济等 10 类。4 媒体类型 / 格式分类。按照数据的格式分为CSV、XLS、HTML、PDF、XML、RDF、ZIP、WMS、ODS、DOC 共 10 类。5 数据发布者分类。分为英国水文局、国家统计局、社区部门和当地政府、NHS 健康和社会关怀信息中心、北爱尔兰空间数据中心等 10
13、 类。6 开放程度分类。按照对数据集开放程度的评价分为五星、三星、二星、一星和无星五类。同样, Data.gov.uk 的数据分类体系也具有一定的“组配”性质, 如可以使用开放许可、主题、数据类型三种标准进行组配, 浏览同时符合标准的科学数据资源。1.3 数据检索功能数据检索功能直接影响到用户对政府数据门户网站数据服务功能的体验, 笔者从检索途径、检索结果输出与排序方式两种角度考察这两个网站的查询功能。1.3.1 检索方式(1) Data.gov。Data.gov 提供了提供了两种检索方式。一是主题检索, 用户在检索框中直接输入所需查询的信息即可, 得到检索结果后还可以根据界面左侧的分类浏览体
14、系选择数据格式、机构等进一步精炼检索结果。二是浏览检索, Data.gov 可以提供基于数据集类型、标签、媒体格式、主题、组织 / 机构的类型、组织 / 机构、学科领域共 7 中方式的浏览检索。以基于组织 / 机构的浏览检索为例, 数据集按组织 / 机构聚类并根据其数量大小依次排列, 用户选择特定组织 / 机构中的数据, 然后进行简单检索。另外, Data.gov 提供了基于地理位置的浏览检索。用户可以先从地理位置 (直接输入地理名称或使用地图上的绘制矩形工具在地图上绘制地理范围) 入手查找相关的科学数据资源, 然后还可以使用主题检索实现二次检索, 精炼检索结果。并且, 用户输入地理名称的前
15、3 个字母之后, 检索框中会有相应的检索词汇的提示, 用户可以直接选择所需的检索词。(2) Data.gov.uk。同 Data.gov 一样, Data.gov.uk 也提供了两种检索方式, 一是主题检索;二是浏览检索。不同之处是, Data.gov.uk 提供基于公开发布与否、开放许可、主题、资源格式、发布者、开放程度等 6 种方式的浏览检索。Data.gov.uk 提供了基于导向式的地理位置浏览检索方式, 在用户检索的界面中有相应的步骤提示。用户可以直接输入地理名称、邮政编码或地理坐标, 也可以使用绘制工具绘制地理范围实现简单检索。同 Data.gov 一样, Data.gov.uk 也
16、可以实现二次检索。另外, Data.gov.uk 还提供了检索帮助信息, 帮助用户快速地使用基于地理位置的浏览检索。1.3.2 检索结果输出与排序方式用户检索的目的是获取所需的数据资源, 因此政府数据门户网站提供的检索结果输出与排序方式也是衡量网站查询功能的一个重要方面。检索结果的输出格式按详略通常分为简单格式和详细格式7。Data.gov 和Data.gov.uk 输出结果均为简单格式, 包括标题、摘要、媒体格式以及所属机构 (分为联邦政府、州政府和大学等) , 其中 Data.gov.uk 输出结果中还包括了数据集所属的主题领域。在检索结果的排序方式上, 二者均提供了相关性、标题名称、最新
17、更新和热门程度四种排序方式, Data.gov 和 Data.gov.uk 默认排序方式分别为按相关性和按热门程度排序。另外, Data.gov.uk 在地理位置浏览检索结果中提供了按地理位置排序方式。1.4 关联数据关联数据是一种新兴的语义网技术, 基于关联关系发布和组织数据资源, 大大提升了数据资源的价值, 如将有关医疗健康的政府数据与地区的人口、环境等数据关联起来可以对医疗投入的效率进行评估。(1) Data.gov。2010 年 Data.gov 引入了关联数据技术组织数据资源, 目前已经发布了 50 亿个三元组, 主题涉及政府支出、环境、统计数据等8。Data.gov 发布关联数据主
18、要分为四步:第一, URI 命名。URI 中通常包括 3 种标识符, 提供机构标识符、数据集标识符和数据集版本。第二, 转换。采用一定的工具如 Krextor 或程序将 XML、CSV 等不同格式转换成 RDF 表示的数据。第三, 发布。发布包括提供 RDF 转存文件的方式提供多种格式的下载、存储在 RDF 三元组存储器中和以可解析 URI 的方式被关联数据应用获取。第四, 关联。关联包括数据集内部及与外部数据集关联关系的组织与构建, 如通过 owl:sameAs 属性将 Data.gov 的数据资源与外部关联数据集, 如 DBpedia、Geonames 中数据资源链接在一起。(2) Dat
19、a.gov.uk。Data.gov.uk 在建设之初就致力于采用 W3C 标准特别是关联数据标准和方法在网上发布和组织政府数据, 其中最主要的两个应用领域是统计数据和地理空间数据9。Data.gov.uk 在使用关联数据发布和组织数据时, 特别强调 URI 的设计、版本的控制和溯源信息的提供。Data.gov.uk 根据实体的类型, 设计了 4 种主要的 URI 模式, 如文档的 URI 模式为 http:/sector.data.gov.uk/doc/concept/identifier。还为 URI 制订了一些指导原则, 如在设计时要考虑 URI 持久性的问题, 尽量使用 URI 内部的自
20、然标识符等。另外, 用户不仅可以通过 SPARQL 端点还可以通过 RESTfulAPIs 获取关联数据。2 英美政府数据门户网站数据组织和浏览、检索的特点英美政府最先启动了数据门户网站, 二者门户网站的数据组织与查询功能也相对完善。从以上对 Data.gov 和 Data.gov.uk 数据组织和浏览、检索功能的论述, 不难看出它们的一些特点。2.1 对资源进行高质量的元数据描述Data.gov 和 Data.gov.uk 均由信息专业人员而不是资源提供者来创建元数据, 部分数据资源还提供了资源提供者的元数据描述, 因此元数据质量控制有了一定的保障。从科学数据共享平台本身的发展来看, 平台之
21、间的开放、合作、共享与互操作已是大势所趋。因此, Data.gov 和 Data.gov.uk 并没有从头开始设计自己的元数据, 而是选择 DC 元数据集为基础, 从中选择所需的元素并引入新元素, 制定了数据门户网站的元数据标准, 包括网站核心元数据和特定领域核心元数据。特定领域核心元数据是在网站核心元数据的标准上制定的, 更好的体现了特定领域科学数据资源的特色。2.2 多维数据分类体系与灵活的检索方式Data.gov 和 Data.gov.uk 的数据分类体系并没有采用固定的标准分类方法 (先制定标准的分类体系, 再将所需分类的目标置于体系之中) , 而是结合了数据资源的实际情况进行分类,
22、具有较高的实用价值。二者均提供了多维数据分类体系, 多个维度的结合有效地对数据资源进行描述和分类, 用户可以方便快捷地找到所需的数据资源。另外, Data.gov 网站整体上构建的二级分类体系, 从宏观和微观两个层面组织数据资源, 使数据资源的呈现方式清晰明了, 并促进了数据的发现和高效利用。由于政府数据资源具有涉及领域广泛、数据类型复杂多样等特点, 并且一般用户很难对某一领域的数据有全面的了解, 英美政府数据门户网站均没有提供复杂的多字段组合的高级检索功能, 而是提供了灵活便利的浏览检索方式。在用户数据需求不甚明确时, 可以根据主题、数据类型、组织机构等分类体系浏览数据资源, 并在选定数据分
23、类的基础上进行检索, 不仅为数据的精确检索带来了方便, 而且可以帮助用户突破学科、专业的限制获取跨学科数据资源。2.3 数据组织新技术的应用Data.gov 和 Data.gov.uk 均已开始借鉴和吸收美国国会图书馆在关联数据发展实践方面的成功经验, 开始关注数据资源之间的关联关系, 以及如何创建、表示、组织和利用这些关联信息等。通过关联数据的 RDF 技术有效地解决了复杂多样的数据资源的描述和表示问题, 降低了政府数据门户网站语义组织工作的难度。并且, 关联数据继承了传统 Web 技术中的 HTTP 和 URI 技术, 减少了将Data.gov 和 Data.gov.uk 原来数据组织的成
24、果统一到语义网中的成本。另外, 关联数据为数据资源语义组织提供了规范的发布与关联标准, 不仅在政府数据门户网站中发布规范描述的 RDF 文件, 还通过 RDF 链接发掘并关联数据资源之间及其与外部数据集之间的各种关联关系, 为 Data.gov 和 Data.gov.uk 构建了更广泛、内容更丰富的语义数据网络。3 结论政府数据门户网站数据类型复杂多样, 因此, 首先要制定统一的分类标准和索引机制进行描述、标引、分类和组织, 以屏蔽不同实体对网站数据组织的差异性。其次, 在数据资源有效组织的基础上要提供灵活方便的浏览、检索功能, 兼顾数据资源的特点和用户的检索、浏览习惯。另外, 语义网技术将从
25、根本上改变互联网上数据组织和管理的形态, 因此, 要积极引入语义网技术如关联数据技术来加强网站数据组织与查询的功能, 实现更深层次的数据管理和服务功能。目前, 我国科学数据共享平台的建设已初具规模, 但还没有开设一站式的政府数据门户网站, 随着国外政府数据门户网站的陆续开设和开放数据运动的深入, 统一的数据门户网站的建设也势在必行。我国科学数据共享平台和政府数据门户网站的数据组织与查询功能的建设不仅要采取符合国情的策略, 还要借鉴英美政府数据门户网站的成功经验。参考文献1钱鹏, 郑建明.基于生命周期的高校科学数据组织研究J.情报理论与实践, 2011, 34 (11) :83-86. 2钱鹏,
26、 郑建明.基于资源描述框架的图书馆科学数据组织初探J.情报理论与实践, 2012, 35 (3) :100-102. 3郭明航, 田均良, 李军超.地球科学研究数据的分类与组织研究J.水土保持研究, 2009, 16 (4) :203-206. 4姜吉栋, 赵辉, 刘润达.科学数据共享平台网站中的信息组织以国家人口与健康科学数据共享平台为例J.信息资源管理学报, 2012, 2 (4) :52-56. 5Witt M, Carlson J, Brandt D S, et al.Constructing data curation profilesJ.International Journal
27、of Digital Curation, 2009, 4 (3) :93-103. 6Data.govEB/OL.2013-12-21.http:/www.data.gov/glossary. 7黄碧云, 刘雁书, 李俊, 等.中外政府统计网站检索功能的比较研究J.情报科学, 2007, 25 (5) :742-747. 8Ding L, DiFranzo D, Graves A, et al.Data-gov Wiki:Towards Linking Government DataC/AAAI Spring Symposium:Linked Data Meets Artificial Intelligence.2010, 10:1-1. 9Sheridan J, Tennison J.Linking UK Government DataC/LDOW.2010.