RDF――Web数据集成的元数据解决方案.doc-道客多多

资源描述

1、RDFWeb 数据集成的元数据解决方案一引言在现今的社会中，信息无处不在，从这些信息中获取对自己有用的信息并不是件容易的事。当然也有例外的，比如，在图书馆里你可以根据书名或作者名或关键字的信息找到藏书号，从而很容易找到所要的书，在音像店里你可以根据片名、主演等信息方便的找到自己所要的影碟。这两个系统有一个共同的特点它们都是建立在元数据之上。元数据是关于数据的数据或关于信息的信息。例如：书的文本就是书的数据，而书名、作者、版权数据都是书的元数据。元数据并不一定就是用来检索的，也可用于内部的管理，如图书馆系统可以为书定义被借次数这个元数据，以了解书的被借阅情况，确定是否要增加副本数。元数据的

2、使用，可以大大提高系统的检索和管理的效率。网络是个大的数据库，它里面包含的数据比起图书馆和音像店来可要复杂的多，五花八门，什么都有，但有一个问题网络基本上没有元数据。那搜索引擎是怎么工作的呢？其实，搜索引擎中除极少数如 Yahoo!外，基本上都是采用网页的全文检索来提供检索服务，这就可想而之其查准率之低了。Yahoo! 将其收集到的网站及网页分门别类加以索引和文摘（由人工完成），从而大大提高了查准率，这也是其流行的一个重要原因。但对如此浩瀚的信息海洋若都采用人工标引显然是不现实的，所以我们用 Yahoo!检索的时候查全率不如象Altavista、Infoseek 这样的搜索引擎高，原因是其

3、收录的网站网页数量有限。如果网络上的资源在创建之初就都使用元数据来描述其自身的信息，那不就可以省去人工标引的麻烦吗？是的，但是怎样用元数据来描述，这得有个标准， W3C 提出的用于描述 Web 资源的RDF（Resource Description Framework 资源描述框架）就是这样的一个标准，RDF 给出了Web 数据集成的元数据解决方案。二 RDF 简介 RDF 的含义就是描述资源的框架（Framework for Describing Resources），下面我们逐个来看这三个词的意思。资源（Resource ）：所有在 Web 上被命名、具有 URI(Unified R

4、esource Identifier 统一资源描述符)的东西。如网页、 XML 文档中的元素等；描述（Decription）：对资源属性（Property）的一个陈述（Statement ），以表明资源的特性或者资源之间的联系；框架（Frameword）：与被描述资源无关的通用模型，以包容和管理资源的多样性、不一致性和重复性。综合起来，RDF 就是定义了一种通用的框架，即“资源属性值”的三元组，以不变应万变，来描述 Web 上的各种资源。下面我们来看一个简单的 RDF 的例子： (指明被描述资源的URI) Tim Bray （被描述资源有一个叫 Author 即作者的属性，其值是 T

5、im Bray）（被描述资源有一叫 Home-Page 即主页的属性，其值指向另一资源）（结束标志）三 RDF 实现 Web 元数据描述与交换的机制 3 1 RDF 的两大关键技术 RDF 有两大关键技术URI 和 XML。URI 是 Web 资源的唯一标识，它是更常用的统一资源定位符 URL 的超集，除了网页以外，它还可以标识页面上的元素、书籍、电视等资源，甚至可以标识某一个人。在 RDF 中，资源无所不在，资源的属性是资源，属性的值可以是资源，甚至与一个陈述也可以是资源，也就是说，所有这些都可以用 URI 标识，可以再用 RDF 来描述。那 RDF 怎样放在网络上让人使用呢？XML

6、作为一种通用的文件格式承担了这个责任，它定义了 RDF 的表示语法，这样就可以方便的用 XML 来交换 RDF 的数据。 3 2 词汇集我们可以看到，RDF 只定义了用于描述资源的框架，它并没有定义用哪些元数据来描述资源。这正是其高明之处。因为显然描述不同资源的元数据是不同的，而如果要定义一种元数据集，包括所有种类的资源，这在目前还是不现实的，不但工作量巨大，而且即使定义出这样的元数据集，能不能被大家采纳还是个问题，因为对于图书馆这样已经用元数据描述其资源的系统，要放弃原来的元数据集采用一种新的元数据集，其工作量是可想而知的，估计实施过程中遇到的阻力会很大。RDF 采用的是另外一种方法，即它

7、允许任何人定义元数据来描述特定的资源，由于资源的属性不止一种，因此实际上一般是定义一个元数据集，这在 RDF 中被称作词汇集（Vocabulary），词汇集也是一种资源，可以用 URI 来唯一标识，这样，在用 RDF 描述资源的时候，可以使用各种词汇集，只要用 URI 指明它们即可。当然，各种词汇集的受欢迎程度可能不同，有的也许只是被定义它的人使用，有的却由于其定义的科学性为许多人所接受，如以类似图书馆卡片目录的方式来定义资源的词汇集 Dublin Core，定义教育内容 IMS 元数据，定义个人信息的 V-Card 元数据等。既然词汇集是资源，当然可以用 RDF 来描述它的属性以及和其他词

8、汇集间的关系，W3C 为此特地提出RDF Schema 来定义怎样用 RDF 来描述词汇集，也就是说 RDF Schema 是定义 RDF 词汇集的词汇集，但这个 RDF Schema 可不是随便什么人都可以定义的，它只有一个，就是 W3C 定义的版本。例如： http:/mymetadata.vocab.org/Author -rdfs: subPropertyOf - http:/purlorg/dc/elements/1.0/Creator 即表示某人自己定义的元数据 Author 是 Dublin Core 的元数据 Creator 的特殊形式。RDF Schema 正是通过这样的方式

9、来描述不同词汇集的元数据之间的关系，从而为元数据交换打下基础。 3 3 实现机制到这里我们就可以发现 RDF 是怎么来实现 Web 上的元数据描述和交换的了：它使用XML 语法，首先指定词汇集的 URI，词汇集可以是多个，视需要而定，再使用指定的词汇集来描述资源，不同的词汇集间怎么联系呢？用 RDF Schema。为了更加清楚的理解这个机制，下面我们来看一个用 XML 表达的 RDF 的例子：（词汇集 2 的 URI）（被描述资源的 URI）（用词汇集 1 的元数据 CREATOR 描述作者属性） Elliotte（用词汇集 2 的元数据描述作者的姓名属性） Rusty Harold

10、四 RDF 的特点 4 1 易控制 RDF 使用简单的资源属性值三元组，所以很容易控制，即使是数量很大的时候。这个特点很重要，因为现在 Web 资源越来越多，如果用来描述资源的元数据格式太复杂，势必会大大降低元数据的使用效率，其实从功能的角度来看，完全可以直接使用 XML 来描述资源，但 XML 结构比较复杂，允许复杂嵌套，不容易进行控制。采用 RDF 可以提高资源检索和管理的效率，从而真正发挥元数据的功用。 4 2 易扩展在使用 RDF 描述资源的时候，词汇集和资源描述是分开的，所以可以很容易扩展。例如如果要增加描述资源的属性，只需要在词汇集中增加相应元数据即可，而如果使用的是关系数据库

11、，增加新字段可不是件容易的事情。 4 3 包容性 RDF 允许任何人定义自己的词汇集，并可以无缝的使用多种词汇集来描述资源，以根据需要来使用，使各尽其能。比如，在上个例子里描述网页资源时用 Dublin Core 描述其作者属性，而在描述作者的姓名时又使用了另外一个专门描述人的词汇集来描述。 4 4 可交换性 RDF 使用 XML 语法，可以很容易的在网络上实现数据交换；另外，RDF Schema 定义了描述词汇集的方法，可以在不同词汇集间通过指定元数据关系来实现含义理解层次上的数据交换。 4 5 易综合在 RDF 中资源的属性是资源，属性值可以是资源，关于资源的陈述也可以是资源，都可以用

12、RDF 来描述，这样就可以很容易的将多个描述综合，以达到发现知识的目的。例如，在描述某书籍时指明其作者属性值是另一资源，我们就可以根据描述作者的 URI 来获得作者的信息，如毕业院校等，从而知道这本书是某一院校的毕业生写的，于是在表面上看来没任何关系的两者间建立的联系，而这种联系往往是知识发现的前奏。五 RDF 与若干 Web 新技术 5 1 RDF 与资源发现（Resource Discovery）技术 RDF 采用简单的资源属性值三元组来描述资源，试想，如果 Web 上的资源都用RDF 进行描述，由于 RDF 采用 XML 语法，这样就可以很容易的实现资源的自动搜索，而不需要进行人工进行

13、标引，并且可以达到很高的查全率和查准率；另外，RDF 描述可以很容易进行综合，产生表面不易观察出来的信息。所有这些都将对资源发现技术产生革命性的影响。 5 2 RDF 与个性化服务随着 Web 技术的发展，个性化服务被提上日程。W3C 提出的综合能力/偏好界面（CC/PP ，Composite Capability/Preference Profile）推荐标准是定义网络上用户以及其用来上网工具（包括硬件平台、系统软件和应用软件）的性能和偏好的集合，它使用了 RDF 技术。我们可以简单认为用户及工具的能力和偏好都是用户的属性，是用户的元数据，于是可以用 RDF 来描述，这样就可使用同一种方法

14、来描述 Web 内容和用户的能力与偏好，在用户获取信息的时候，可以通过某一种规则进行折中，以使得获取的信息符合用户的能力和偏好，为用户提供个性化服务。例如：某 Web 内容是用多种语言实现的，但由于翻译的问题，各语种的可信度有高有低，而用户对各种语言的掌握程度也不同，这样就需要某一种规则进行折中，以让用户选择一种他可以理解的最忠实于原文档的语种进行阅读，使用RDF 描述 Web 内容和用户能力/ 偏好可大大简化这种折中的过程。 5 3 RDF 与 Web 信息过滤 RDF 最初提出就是为了配合 W3C 提出的 PICS（Platform for Internet Content Selecti

15、on，因特网内容选择平台）规范。PICS 是由服务器向客户机传递 Web 内容等级的一种机制，比如说某一网页是否包含有色情、暴力的内容。不同的机构可以按自己的价值标准将 Web 内容进行分级，这样用户就可以很容易的通过设置浏览器将某些网页过滤掉。RDF 设计的一个要求就是可以表达 PICS1.1 能表达的所有内容，以使得可以自动的将 PICS1.1 标签翻译成RDF 的标识，而不损失任何信息，这样做的好处就是可以用 RDF 来进行数据的交换。 5 4 RDF 与可信任 Web（Web of Trust）现在网络要解决的一个重要问题是建立信任机制，这个问题比较复杂，涉及到社会和技术上的许多问题

16、。信任的一个方面是将某一陈述可靠的与做出此陈述的人或机构联系起来，数字签名技术则是技术上实现可信任 Web 的关键技术。W3C 提出的数字签名初步（DSig，Digital Signature Initiative）提出了一种为元数据签名的机制，以确认是谁做了这种机器可读的陈述，它规定了如何由 RDF/PICS 描述签名陈述，使其成为机器可识别的描述。具有数字签名的 RDF 将成为构建可信任 Web 以满足电子商务等应用需要的关键技术。 5 5 RDF 与智能浏览（Smart Browsing）技术 Mozilla 浏览器的 pre-Nglayout 版本和 Netscape 浏览器的 4.0

17、7 或 4.5+版本都大量采用RDF 技术，实现了智能浏览。智能浏览即浏览器帮助浏览网页的用户提供其他与其浏览内容有关的信息，例如，如果你在 www.whitehouse.gov 上浏览白宫的网页，就有可能需要国会、国防部或者总统个人主页的 URL，而这些浏览器本身就可以提供给用户。智能浏览技术是未来浏览器发展的一个方向。 5 6 RDF 与语义 Web（Semantic Web）语义 Web 是最近才提出的一个概念，即 Web 的内容不仅仅用来显示，更重要的是具有真正的含义，使得可以用软件工具在 Web 中漫游来处理用户提出的复杂任务。而实现语义 Web 的一个关键技术就是 RDF，因为

18、RDF 提供了资源的通用描述方式。语义 Web 的一个目标是突破虚拟世界的界限来控制现实世界，当我们可以用 RDF 来描述电视机、电话等设备来实现对它们的协调控制的时候，想一想那是多么美好的未来！六结语 RDF 为 Web 资源描述提供了一种通用框架，它以一种机器可理解的方式被表示出来，可以很方便的进行数据交换，RDF 提供了 Web 数据集成的元数据解决方案。通过 RDF 的帮助，Web 可以实现目前还很难实现的一系列应用，如可以更有效的发现资源，提供个性化服务，分级与过滤 Web 的内容，建立信任机制，实现智能浏览和语义 Web 等。当然，现在的 RDF 还处于标准的制定和推广阶段，要在整个网络上都实现用 RDF 来描述资源，还有很长的一段路要走，这需要各方面的共同努力。

展开阅读全文