d2r在图书馆书目数据关联服务中的应用分析.doc-道客多多

资源描述

1、D2R 在图书馆书目数据关联服务中的应用分析唐艳春华南理工大学图书馆摘要：针对书目数据关联化程度低的问题, 从检索结果、FRBR 化聚合、资源与服务的链接、与知识组织工具的关联等 5 方面对“211”高校图书馆书目数据服务现状进行调查与分析, 从技术、资源组织等方面具体阐述 D2R 在实现书目数据关联服务中的优势, 并从总体设计与详细设计两方面进行应用分析, 这不仅可实现书目数据和其他数据的融合, 而且可以促进书目数据服务的功能嵌入。关键词：书目数据; 关联服务; D2R; 作者简介：唐艳春, 华南理工大学图书馆馆员, E-mail:。收稿日期：2014-04-02基金：华南理工大

2、学中央高校基本科研业务项目“高校机构知识库与社科服务平台整合研究” (项目编号:2014GM13) 研究成果之一Application Analysis of D2R in the Librarys Bibliographic Data ServicesTang Yanchun South China University of Technology Library; Abstract： According to the problem of the low linked level of bibliographic data, the paper conducts a survey and

3、analyses the status of bibliographic data service from the aspects of search results, FRBR polymerization, link of resources and service, correlation with knowledge organization system in the libraries of universities of“211 Project”. Then it elaborates advantages of D2 R in the application of linke

4、d bibliographic data services from two aspects of technology and data organization. In the end, this paper constructs a applied analysis from perspectives of system design and detailed design, in hope to provide a reference for the fusion of bibliographic data and other data and promote bibliographi

5、c data services being embedded function.Keyword： bibliographic data linked service D2R; Received： 2014-04-021 引言自 2006 年 7 月伯纳斯李提出关联数据这一概念之后, 书目数据关联服务逐渐成为图书馆界关注的热点之一。国际上, 2008 年瑞典国家图书馆将瑞典联合书目 LIBRIS 发布为关联数据1, 这是首个实现图书馆书目数据关联数据化的实例;2012 年 6 月, OCLC 将 WorldCat. org 中的书目元数据发布为关联数据2, 是目前 Web 上最大的关联书目数据

6、。我国对关联数据的认识比较晚, 2009 年曾蕾将关联数据概念引入国内, 之后涌现出大量的研究成果, 白海燕3-5、沈志宏、张晓林6、黄永文7、范炜8、刘炜9等在研究国外相关项目的基础上, 从技术实现和项目开发的角度全面系统地阐述了图书馆书目数据关联服务的可行性; 欧石燕基于元数据层、本体层、关联数据层和应用层, 提出了一个面向关联数据的语义数字图书馆资源描述与组织框架10; 司莉、李鑫等提出了一个基于关联数据的书目数据语义化框架, 并使用 D2R ( Database toRDF) 工具以武汉大学一定数量的书目数据进行具体实现11; 深圳大学图书馆 NKOS研究室在中国分类主题词表一版基础上

7、建立中文叙词表本体, 继而构建和发布了书目数据关联服务12。但是, 从理论上来看, 国内目前的研究主要是引进与介绍国外成果, 创新不足。实践上, 面对庞大的、异构的图书馆书目数据集时, 理论上构建的模式没有可操作性、难以推广; 虽然深圳大学图书馆进行过一定的探索, 但这些探索只是对既定词表的关联化, 仍难以实现其与 MARC 数据的语义关联。有鉴于此, 本文在调查图书馆书目数据服务现状与分析 D2R 优势的基础上, 面向图书馆实际工作, 应用 D2R 工具构建书目数据关联服务的实现框架, 旨在普遍实现图书馆书目数据关联服务。2 图书馆书目数据组织现状2. 1 调查背景书目数据关联服务的实现取决

8、于相应图书馆系统的支持程度, 为了解目前国内主流图书馆系统支持书目数据实现关联服务的现状, 笔者于 2013 年 12 月 2014年 3 月选取全国 112 所“211”高校图书馆, 从检索结果、FRBR 化聚合、资源与服务的链接及与知识组织工具的关联等 5 个维度逐一检索、浏览其 OPAC 查询系统。2. 2 调查情况通过调查, ILAS II、汇文、MELINETS II、SULCMIS、INNOPAC 及 ALEPH500 等6 个系统应用最为广泛。表 1 反映的是这些图书馆系统对书目数据关联服务的支持情况。2. 3 调查结果分析2. 3. 1 检索结果分析调查显示, 被调查的系统都提

9、供了基本的“字段名”显示格式, 部分系统提供“MARC”显示格式, 这些 MARC 数据都是以记录形式存在的, 各个不同的元素被混合在同一条记录中, 从中获取信息不但需要理解 MARC字段的结构, 还需要理解编目规则; 此外, MARC 的数据结构都是一维线性的, 对于复杂的对象关系是固化在资源描述语言中的, 没有提供明确的、规范化表达, 不能进行调整, 也不支持多维和立体的资源组织和展现方式。表 1 国内主流图书馆系统支持书目数据语义化调查下载原表 2. 3. 2 FRBR 聚合作品分析调查显示, 虽然INNOPAC、HORIZON、UNICORN、ALEPH500 系统提供基于责任者、主

10、题、语种、载体形态、年代等书目层次关系的显示, 但这只是将数量比较大的结果集划分为几大部分, 每一维下按相同的特征进行集中, 并没有区分实体层次和相关关系, 缺少资源语义信息的形式化、规范化表达。2. 3. 3 资源与服务链接分析网络环境下, OPAC 系统应该充分实现对外部资源的无缝链接。调查显示, 汇文、INNOPAC、HORIZON、UNICORN、ALEPH500 可以兼容现有主流链接解析工具 SFX, 而 ILAS II、MELINETS II、SULCMIS 在此方面功能薄弱, 只能通过书目信息中的“相关资源”与馆内外资源的链接。这些链接仅供读者去了解相关的书目信息, 没有与网络上

11、其他数据资源共享节点。2. 3. 4 与知识组织工具的关联知识组织工具是指对自然语言进行控制并有利于提高检索效率的工具, 具体包括图书分类表、主题词表、叙词表、SemanticWeb、Taxonomies、Ontologies、Topic Maps 等13。调查显示, 深圳大学图书馆 SULCMIS 根据中文叙词表本体的需求和特点, 实现了中文分类主题词表的 Linked Data 服务模块12, 一方面, 提供所有叙词概念款目中的关联对象, 并可通过关联对象的链接查询其详情; 另一方面, 实现检索的规范控制, 而其他的系统目前则无法支持。2. 4 调查结论通过以上分析, 一方面, 囿于 MA

12、RC 的数据编码方式, 数据实体、属性及其间关系没有充分表达, 数据的层次结构没有准确的划分, 即资源描述语义化程度低;另一方面, 因为图书馆书目数据一直封装在数据库中, 虽然可以与外部资源进行形式链接, 但是缺乏机器可识别的关联机制, 内容上的语义链接程度不高。所以, 图书馆必须积极采用语义网技术, 实现书目数据的语义关联和资源服务的无缝链接。3 D2R 实现书目数据关联服务的优势3. 1 D2R 工具自身的技术优势目前, 能够实现图书馆书目数据关联服务的软件很多, 例如 D2R、Linked Media Framework、Virtuoso Universal Server、Pubby、L

13、inked Data API /Elda、OAI2lodServer 等, 但是从功能、特点来看, D2R 具有难以比拟的优势, 见表 2。通过表 2 比较发现, D2R 支持任何关系型数据库的数据转换, 通用性很强; 提供标准的转换和发布, 支持灵活的映射配置文件; 生成虚拟 Linked Data, 保证数据库内容更新简易。Linked Media Framework 针对大批量关系型数据库数据无法提供一次性转换操作; Virtuoso Universal Server 目前只提供 Linux的开源版本;Pubby、Linked Data API /Elda、OAI2lod Server

14、无法支持多个数据集同时查询。表 2 D2R 与其他关联数据工具比较下载原表 3. 2 D2R 的数据组织优势3. 2. 1 提供了跨系统跨平台的互操作通用语言在创建数据和传递数据方面, D2R 扩展了图书馆以前使用的共享模型, 其中的数据集是可共享、可扩展和重用的; 在数据和用户服务方面, D2R 具有支持多语言的功能, 概念的多语言标签通过 language-agnostic URIs 标识14。利用 D2R 技术, 各个图书馆可以合作对资源进行描述, 也可以参引其他机构或者个人对资源进行描述的数据。3. 2. 2 使用了统一资源标识符 D2R 用统一资源标识符 ( URI) 标识作品、地

15、点、人物、事件、主题或者相关概念, 利用标识符, 图书馆的资源可以跨领域得到广泛的参引, 图书馆描述性元数据可以被广泛获取; 数据发布者可以将发布的数据信息的部分内容作为“声明”信息15。在当前的文档系统中, 数据的交换总是以整条记录的形式进行的, 每条记录都视为是一个完整的描述, 而在图示化的系统里, 每个机构都可以为资源提供单个“声明”信息, 所有关于某一特定标识资源的“声明”都可以整合到一张图示中, 图书馆服务从外部资源获取以上这些“声明”信息16。4 基于 D2R 的图书馆书目数据关联服务的框架设计4. 1 系统设计系统设计主要包括数据源的构建、SQL Server 数据库的构建、D2

16、R Sever 发布关联数据, 见图 1。( 1) 数据源主要来自图书馆结构化的书目数据和网络资源, 并参照 FRBR 结构模型对图书馆书目数据进行解析, 按照相关性进行聚类。( 2) 应用 SQL Server 构建名为 Bil 的数据库及相关数据表。图 1 图书馆书目数据关联服务的系统设计下载原图( 3) 通过路径设置、概念映射和数据映射, 实现 SQL Server 关系型数据库的RDF 标注, D2R 提供 HTML、RDF、Sparql 三种格式显示。4. 2 详细设计基于 D2R 的图书馆书目数据关联服务框架的详细设计主要包括数据集的构建、书目数据库及数据表的构建、内部数据关联的

17、构建、D2RQ ( Database to RDFQuery) 语义映射。4. 2. 1 数据集的构建( 1) 图书馆书目数据。图书馆 MARC 格式包含几百个字段, 揭示了书目信息的各个方面。每一个字段的目的、格式和内容在 MARC 标准中有清晰的定义, 但是大量字段对于用户来说是毫无意义的, 因此笔者选取了大多数书目数据中都存在能够反映文献内容、能够把不同书目记录区分开来的字段。( 2) 网络信息资源。论文中的数据集主要从 Wiki 中手工抽取, MediaWiki 提供的所有编辑、链接、元数据标注都是在文章的文本内、通过增加特殊的语法结构来完成的。因此, 通过解析文本语法, 可以获得结构

18、化的信息。( 3) 数据集的形成。本文依照 FRBR 概念模型对图书馆书目数据进行聚合, 以作品为中心, 为每一个作品建立一条主干记录, 同时建立许多分支记录。分支记录揭示同一作品的不同内容表达、载体表现和文献单元, 同时连接相关作品的相关记录。这样, 记录通过相互关系形成一个数据网, 具体聚合关系如图 2所示:图 2 书目数据实例中 FRBR 聚合关系下载原图4. 2. 2 书目数据库及数据表的构建( 1) 建立 Bil 数据库, 如下:CREATE DATABASE Bil ON PRIMARY( 2) 在 Bil 数据库中, 依次建立作品表、责任者、出版者表, 如下:作品 ( 题名、I

19、SBN、责任者 ID、出版者 ID、出版时间、语种、摘要、主题、复本、状态、分类号) ;责任者表 ( ID、责任者姓名、别名、性别、国别、出生日期、出生地点、死亡日期、受影响者、施影响者、评价、图片) ;出版者表 ( 出版者 ID、出版者名称、性质、主营业务、级别、城市、具体地点、邮编、隶属机构、主管、分机构、营业时间) 4. 2. 3 内部数据的关联关系构建( 1) 不同表之间的关系。基于外键引用的表间关系, 即一个表中的非主属性来自于另一个表的主属性。例如, 作品表中, 作品的主题属性, 引自主题数据表概念_id; 出版者表的城市属性, 引自主题数据表概念_id 属性。对这些数据进行关联数

20、据发布时, 应表达这些在数据库中显性构建的关联关系。基于属性关联的表间关系, 例如作品和责任者, 都有责任者属性, 表明两者存在一定的关系, 当使用 SQL 语句 ( Selcet 作品, 责任者 where 作品. 责任者ID = 责任者. 姓名 ID, 则可以得到作品与责任者基于相同人物的关联关系。( 2) 同一表的内部关系。一个表及其列代表一个实体及其属性之间存在的一对多的关系, 可通过 ClassMap 及 PropertyBridge 的描述来实现。而对于同一表内所包含的内在实体关系, D2RQ 映射语言提供对 SQL 语言中的“别名”的支持, 即 d2rq: alias 区分不同的

21、逻辑对象, 再利用 d2rq: join 进行关系描述17。因此, 可以通过使用别名, 实现同一表内部关系的提取, 并将这种关系在关联数据中转换为 RDF 链接。4. 2. 4 D2RQ 语义映射( 1) D2R 的映射机制。在 D2R 中, D2R Server 利用 D2RQ Enging 中的 D2RQ Mapping 将 SQL Server 数据库中的数据换成 RDF 格式。如图 3 所示:图 3 D2R 结构体系18 下载原图D2R Server 是一个 HTTP Server, 它的主要功能是提供对 RDF 数据的查询访问接口, 以供上层的 RDF 浏览器、SPARQL 查询客户

22、端以及传统的 HTML 浏览器调用。D2RQ Engine 的主要功能是使用一个可定制的 D2RQ Mapping 将关系型数据库中的数据换成 RDF 格式。D2RQ Engine 并没有将关系型数据库发布成真实的RDF 数据, 而是使用 D2RQ 文件将其映射成虚拟的 RDF 格式19。该文件的作用是在访问关系型数据时将 RDF 数据的查询语言 SPARQL 转换为 RDB 数据的查询语言 SQL, 并将 SQL 查询结果转换为 RDF 三元组或者 SPARQL 查询结果。( 2) SQL Server 与关联数据的转换。在 SQL Server 关系数据库与 RDF 的映射实现研究方面,

23、本文采用 LYanhui20等提出的方法, 即通过抽取关系模型的语义并映射到 RDF 模型, 关系模型和三元组之间的映射转换关系可描述为概念映射和数据映射两个方面, 具体见表 3。通过表 3 可以看出, 类与实体的映射体现为表与 RDF 类的映射, 即表映射为RDF 三元组中的主体或客体, 表的主键映射为主语或对象的 URI;数据属性的映射, 即二维表的列对应为三元组中的谓词, 其行数据映射为文本对象;对象之间的语义关系通过 RDF 链接来表达。表 3 关联数据与关系型数据库的转换下载原表 ( 3) SQL Server 关系型数据库的映射。将 SQLServer 的驱动 JDBC 下的 J

24、ar 包放在 D2R Server 的 lib 目录下, 并在系统的 Class 环境变量中增加该驱动的路径, 实现 SQL Server 与 D2R Server 的连接。在命令行中进入 D2R 所在的路径, 执行生成映射文件的命令, 实现 SQL Server的 D2RQ Mapping。( 4) 数据表的映射。数据表的映射主要包括三方面: 从数据库中选择关联的数据表, 形成记录集; 利用 D2R Sever 中的 the d2r: groupBy columns 对记录集表进行分类形成分类记录集; 构建实体实例及标识; 将分类记录集映射为数据属性。如图 4 所示:图 4 D2RQ 映射流

25、程下载原图这个映射流程主要通过自动映射和手工添加映射来实现: 自动映射。在 linked data 中, 每一个表自定义为一个类, 并为每个表设置主外键, D2R 通过主外键关系自动为其创建 RDF 关联。具体做法为, 如果一个表 A 被表 B 外键引用, 则为 A 对应的 ClassMap 创建一个 PropertyBridge, 其中 d2rq: belongsToClassMap 为 A 所对应的 ClassMap, d2rq: refersToClassMap 为 B 所对应的 ClassMap21-22。这样, 在浏览 A 的实例资源时, 便可以通过该 PropertyBridge

26、跳转到 B 的实例资源。手工添加映射。很多数据之间虽然有联系, 但创建者们并没有为之建立主外键的关系, 可以手动地修改 Mapping 文件, 为之建立一些必要的关联。其创建方法如下: 在某一数据库中, 都含有属性 C 的数据表, 数据表 A 中的数据是从Hompage 上抽取的, 数据表 B 中的数据时从 Wikipedia 上抽取的, 这两张表并没有主外键的关联。可以人工定义一定的规则 ( 关系属性, 如 WikiInfor, 将Homepage 这个类资源与 B 这个类资源关联起来。4. 2. 5 使用 D2R 发布关联数据( 1) URI 模式定义。D2RQ 映射语言有 4 种方式

27、:绝对 URI 模式 ( URI Pattern) 、相对 URI 模式 ( RelativeURI Pattern) 、URI 列模式 ( URI Columns Pattern) 和空节点模式 ( Blank Nodes Pattern) 23。本文采用绝对 URI 模式, 即使用 d2rq: uriPattern 属性对每个表对象进行配置, 形如作品/ 作品. 责任者 ID, “/”前面的部分为表名, 后面“ ”之间的部分为表的列9。( 2) 运行与实施。生成映射文件、URI 模式定义之后, 通过 D2R 服务启动脚本d2r. server. bat, 执行以上操作所成生的映射文件, 启

28、动关联数据的 Web 发布服务 D2R Server。执行命令: D: /d2r - server/d2r - serveroutfile. n3启动服务, 成功启动后, 在浏览器中输入访问地址 http: /localhost:2020, 显示 D2R Server 的运行入口页面, 分别提供了 HTML 浏览、RDF 浏览和 SPARQL查询端三类功能。从图 5 可以看到, 数据表作品、责任者、出版者等已经作为类显示。图 5 书目数据实例 D2R Server 的运行界面下载原图图 6 显示的是“作品”的详细信息。图 6 书目数据实例“作品”类数据下载原图4. 2. 6 与外部数据集的

29、关联构建( 1) 与常量的关联, 即为每一个资源增加一个属性, 通过类映射的 d2rq: constantValue, 为这个属性关联一个常量24。与常量关联的编码如下:map: personClassMap a d2rq: ClassMap;d2rq: class : person;map: seeAlsoBridge a d2rq: PropertyBridge;d2rq: belongsToClassMap map: PlaceClassMap;d2rq: property rdfs: seeAlso;d2rq: constantValue ;其中, rdfs: seeAlso 带有一个

30、固定的 URL 对象, 连接到每个 map: placeClassMap 类映射的实例中, 即为每一个人物类增加了一个 Wikipedia 的地名概念。( 2) 与词表的关联。D2RQ 提供了附加类定义 ( d2rq: additionalClassDefinition) 和附加属性定义 ( d2rq: additionalPropertyDefinition) 24, 分别与类映射和属性映射相对应, 能够为私有的类和属性词汇建立与通用词表之间的映射。与通用词表的关联编码如下:map: AuthorClassMap a d2rq: ClassMap;d2rq: class : creator

31、;d2rq: additionalClassDefinitionPropertymap: creator Equivalence.map: creator Equivalence a d2rq: AdditionalProperty;d2rq: propertyName owl: equivalentClass;d2rq: propertyValue foaf: person.其中, 通过附加一个类映射 creator Equivalence, 为 creator 类与通用的foaf: person 类建立了映射关联, 通过附加一个属性映射workTitleEquivalence, 为 Tit

32、le 建立了与 dc: title 的映射。而 foaf: Person、dc: title 也能够像 creator 和 Title 一样, 参与 SPARQL 的模式查询, 实现诸如 ( additionalName, ANY, ANY) 、 ( URI, ANY, additionalName) 和 ( URI, additionalName, ANY) 的模式匹配查询。4. 2. 7 SPARQL 查询端( 1) 创建 D2RQ model。该步骤需要注意的是, 创建 model 时需要指定 Mapping文件的路径, 路径可以是绝对路径, 也可以是基于工程根目录的相对路径, 路径之前

33、必须加上前缀“file: /”, 例如, Model D2RQ m =new ModelD2RQ ( “file: /D: /Bil. n3”) 。( 2) SPARQL 语言。SPARQL 查询语句26需要有命名空间 ( 元数据) 的前缀说明, 并且声明必须与 Mapping 文件的前缀相一致。在执行 SPARQL 语句时, 需要指明要执行的语句以及所依附的 D2RQ model。同时, D2R 提供了一些类似 SQL的接口去获取每个查询结果项。在构建查询命令时, 如果需要查询某一具体实例资源的属性值, 在写 SPARQL 语句的时候注意需要将路径用“”引起来, 如图 7 所示:图 7 书目

34、数据实例 SPARQL 查询端下载原图5 基于 D2R 书目数据关联服务框架的应用价值本文尝试了将 D2R 应用于书目数据以解决传统书目数据语义化程度低的问题, 在调查分析图书馆书目数据组织现状并分析 D2R 的技术与实践优势的基础上, 构建基于 D2R 的书目数据关联服务的框架, 可以充分地将书目数据和其他数据融合起来, 使书目信息更加丰富和完整, 不仅能提高数据的结构化程度, 还可以扩大数据的组织对象, 更能促进数据服务的功能嵌入。5. 1 提高数据的结构化程度D2R 依据 RDF 模型实现“资源属性属性值”的形式表达, 使用 URI 来标识不同的对象, 并将不同的 URI 连接起来, 清楚地表达对象间的关系。为揭示对象间关系而由 URI 连接而成的 RDF 有向图, 摆脱了 MARC 所隐含资源结构的限制, 可以更加灵活地表达知识或资源, 使数据之间的关系显性化和语义化关联27。同时, 这种以通用的格式 ( RDF) 发布的图书馆数据, 易于被其他系统汇聚和利用。5. 2 扩大数据的组织对象

展开阅读全文