1、 研究生课程论文 Course Paper论文编号 Paper No: 撰写日期 Date: 语义 Web 的理论基础与技术基础Semantics Web Rationale and Technology Base论文类型 Paper Type: 研究总结 Summary of Focused Research论及主题 Subject Covered: 对象-关系数据库 Object-Relational Databases Web/XML 数据管理 Web/XML Data Management 数据仓库与联机分析处理 Data Warehousing RDF; ontology; XML1
2、 引言随着Web的迅速发展,其应用范围变得更广,规模变得更大。传统的Web技术已经不能满足现在Web发展的需要。语义网汲取多个学科的研究成果,力图对Web上信息的表示和获取方式进行重大的改进,通过增加一些语义信息使得计算机能够参与Web信息的自动处理,从而更有效地利用Web信息。语义Web采用多层次的表示框架,本体位于由文档描述到知识推理转折的层次,因此本体的构建是实现语义Web的理论基础。本文针对Web领域的最新发展目标语义网,阐述语义网的结构,简介其主要概念和思想,探讨其中的关键技术,并介绍其相关应用。2 语义 Web 的定义和体系结构2.1 语义Web的定义什么是语义Web并没有一个严格
3、的定义。通过分析Tim Berners-Lee等人和W3C从不同角度对语义Web提出的概念和定义可知:语义Web一方面指代由机器可处理的信息所组成的抽象信息空间,另一方面指代语义Web技术所组成的研究对象 1。“语义”含有“机器可处理”的意思,而不是自然语言或人的推理,对信息来说,“语义,表达了对信息能做哪些操作”。可以将语义Web理解为:语义网是对未来网络的一个设想,在这样的网络中,信息都被赎予了明确的含义,机器能够自动地处理和集成网上可用的信息。现代数据管理技术研究总结报告:语义 Web 的理论基础与技术基础Paper No: Date: Page 3 of 102.2 语义Web的体系结
4、构Web的创始人Tim Berners-Lee 2在2000年提出了语义Web的概念和体系结构。图 1 描述了语义 Web 的七层体系结构 3UnicodeXML+NS+XML Schema 名称空间RDF+RDF Schema本体逻辑证明信任URI自描述文档数据数据规则数字签名图 1 语义网体系结构第一层,Unicode和URI:在语义Web体系结构中,该层是整个语义Web的基础,其中Unicode负责处理资源的编码,URI负责资源的标识。第二层, XML+NS+XMLschema:该层主要负责从语法上表示数据的内容和结构,通过使用标准的置标语言将网络信息的表现形式、数据结构和信息内容相分离
5、.由于XML只能表达数据的语法,而不能表达机器可理解的形式化的语义,为此语义网引人了RDF。第三层,RDF十RDFschema,RDF是一种描述WWW上的信息资源的一种语言,其目标是建立一种供多种元数据标准共存的框架Rdf Schema,使用一种机器可以理解的体系来定义描述资源的词汇。为满足描述信息的需要RDFS允许用户自定义除了RDF基本描述集合以外的特定领域的概念元集合即本体(Ontology)。第四层,Ontology Vocabulary,该层是在RDF(S)基础上定义的概念及其关系的抽象描述,用于描述应用领域的知识,描述各类资源及资源之间的关系,实现对词汇表的扩展。在这一层,用户不仅
6、可以定义概念而且可以定义概念之间丰富的关系。第五至七层,Logic、Proof、Trust,logic负责提供公理和推理规则;Proof,Trust通过Proof交换以及数字签名建立一定的信任关系。第二 、 三 、四层是语义Web的关键层,也是现在语义Web研究的热点所在。3 语义 Web 的技术基础 XML 和 RDF语义Web使网络信息的内容能被计算机所处理,因此需要建立更高层次上的互操作标准。这些标准不但定义了网络上文档的语法形式,而且还定义了其语义内容。W3C标准化组织已经公布了 XML/XML Schema与RDF/RDF Schema规范 4,这有利于语义上的协同。现代数据管理技术
7、研究总结报告:语义 Web 的理论基础与技术基础Paper No: Date: Page 4 of 103.1 XMLXML代表Extensible Markup Language(eXtensible Markup Language的缩写,意为可扩展的标记语言)。XML是一套定义语义标记的规则,它也是元标记语言。XML的规则,下面是一个简单的XML文档 5。GeorgeJohnReminderDont forget the meeting this weekend!第一行是 XML 声明。它定义 XML 的版本 (1.0) 和所使用的编码 (ISO-8859-1 = Latin-1/西欧字符
8、集)。下一行描述文档的根元素(像在说:“本文档是一个便签”):接下来 4 行描述根的 4 个子元素(to, from, heading 以及 body):最后一行定义根元素的结尾:3.1.1 XML 的特性(1)可扩展性。XML允许便用者创建和使用他们自己的标记而不是HTML的有限词汇表。这一点至关重要,它可以作为领域信息共享与数据交换的基础。(2)灵活性。XML提供了一种结构化的数据表示方式,使得用户界面分离于结构化数据.所以,Web用户所追求的许多先进功能在XML环境下更容易实现。(3)自描述性。XML文档通常包含一个文档类型声明,因而XML文档是自描述的。不仅人能读懂XML文档,计算机也
9、能处理。除了上述特性以外,XML还具有简明性 6。另外XML支持世界上几乎所有的主要语言。所有这一切将使XML成为数据表示的一个开放标准.这种数据表示独立于机器平台、供应商以及编程语言。它将为网络计算注人新的活力,并为信息技术带来新的机遇。XML schema即模式定义,由W3C开发的,所起的作用与DTD相同 9。与DTD相比,XML模式具有如下优点:(1)DTD是用一种与XML不同的语法编写的,而XML模式使用的是一种类XML的语言。(2)DTD中的所有声明都是全局声明,而XML模式则既有全局声明也有局部声明,可以视情况而定。(3)DTD不能对给定的元素或尼性的数据类型进行定义,而XML模式
10、具有一套完整的数据类型系统,它允许对数据类型如整型、时间型或字符串等进行详细定义。XML提供了文档结构化的语法,实现了文档结构与文档表现形式的分离,根据不同的目的同一个文档可以有不同的表现形式。XML Schema是约束XML文档结构的语言。3.2 RDFRDF是Resource Description Framework的缩写,即资源描述框架。是一个用于表达关于万维网(World Wide Web)上的资源的信息的语言,提供的是应用程序之间的互操作性,使应用程序互相交换机器可理解的信息。RDF强调使Web资源可自动处理,定义了表示计算机可处理的数据语义的语句规范及简单数据模型。在RDF技术的
11、基础上,W3C又提出了资源描述框架定义集(RDFS)。利用RDFS,可以在网现代数据管理技术研究总结报告:语义 Web 的理论基础与技术基础Paper No: Date: Page 5 of 10络信息中运用类、子类、子属性、属性的作用域及取值范围的限制。RDF由三个部分组成:RDF Data Model、RDF Schema和RDF Syntax。(1)RDF Data Model:RDF Data Model提供了一个简单但功能强大的模型,通过资源、属性及其相应值来描述特定资源. RDF的图模型 4:RDF可以将一个或多个关于资源的简单陈述表示为一个由结点和弧组成的图,其中的结点和弧代表资
12、源、属性或属性值。为了让讨论显得尽量具体一些,下面的这组陈述“有一个人由http:/www.w3.org/People/EM/contact#me 标识, 他的名字是Eric Miller, 他的电子邮件地址是emw3.org,他的头衔是Dr.”可以表示为图2 图 2 RDF 的图模型RDF描述的三元组模型:三元组是用来替代图书写陈述的方法。在三元组表示法中,图中的每个陈述都可以写成一个依次为主体、谓词、客体的三元组。有时在讨论它们的时候画图不太方便,因此也会用到一个替代的书写陈述的方法,称为三元组 ( http:/www.w3.org/TR/rdf-concepts/#dfn-rdf-tri
13、ple)。在三元组表示法中,图中的每个陈述都可以写成一个依次为主体,谓词,客体的三元组。如图 3 图 3 三元组表示法(http:/www.w3.org/TR/2004/REC-rdf-primer-20040210/#figure3)所表示的陈述用三元组表示法来写就是:现代数据管理技术研究总结报告:语义 Web 的理论基础与技术基础Paper No: Date: Page 6 of 10Eric MillerDr. (3)RDF SchemaRDF所提供的是一些基本的建模元语,对于表达语义还不够。RDF Schema使用一种机器可以理解的体系来定义描述资源的词汇。 RDF Schema规范用
14、RDF进一步定义了建模元语。RDF Schema定义了三个核心类:rdf=Resource,rdfs,Property,rdfs,Class,五个核心属性:rdf,type,rdfs,subClassOf,rdfs,seeAlso,rdfs,subPorperty0f,rdfsisDefinedBy,四个核心约束:rdfs,ConstrantResource,rdfs,range,rdfs,ConstraintProperty,rdfs,domain。RDF解决如何无二义性的描述资像对象的问题,使得描述的资源的元数据信息成为机器可以理解的信息。RDF通过基于XML语法的明确定义的模型,来建立语
15、义协定(RDFS)和语法编码(XML)之间的桥梁,并以此来实现元数据的互操作能力。RDF/RDF Schema解决了语义模型和通用语义的问题。但它描述语义的功能有限,对特定领域的词汇描述能力比较弱。4 语义 Web 的理论基础语义网的构想是在 Web 中引入语义知识表示,即语义网不仅仅局限于将页面内容和表现形式分离,更强调增加具有语义的信息,从而保证 Web 页面能够被机器理解和自动处理。因此,如何表示语义信息对于语义网就显得非常关键。RDF(S)在 XML 的基础上提供了有限的语义描述能力,但还需要添加更多的用于描述属性和类型的词汇。例如类型之间的不相交性、基数、等价性、并、交和补等;属性的
16、传递性、函数性、对称性以及属性逆等。语义信息模型本体正是描述语义网中语义知识的建模手段,它形式化地定义了领域内共同认可的知识,是语义网体系中的核心。现代数据管理技术研究总结报告:语义 Web 的理论基础与技术基础Paper No: Date: Page 7 of 104.1 本体的定义虽然本体早在20世纪60年代就为计算机领域所使用,但是对于本体的理解和定义一直缺乏统一的看法。第一个让人信服并被广泛应用的本体定义是1993年Gruber给出的,即“本体是概念模型的明确的规范说明”(Gruber,1993) 7。后来,Brost在此基础上,给出了本体的另外一个定义“本体是共享概念模型的形式化规范
17、说明” (Brost,1997)。Studer等人对上述两个定义进行了深入的研究,他们认为本体是“共享概念模型的明确的形式化规范说明” (Studer et al,1998)这个定义包含四层含义:概念模型、明确、形式化和共享,具体描述如下:概念模型。通过抽象出客观世界中一些现象的相关概念而得到的模型,概念模型表现的含义独立于具体的环境状态。明确。概念和概念的约束都有明确的和无歧义的定义。形式化。本体能通过本体语言编码,使得计算机可读,并可以被计算机处理。共享。本体体现的是共同认可的知识,反映的是相关领域内公认的概念集。总的来说,本体的目标是捕获相关领域的各有知识,提供对领域知识的共同理解,确定
18、概领域内共同认可的术语,并从不同层次的形式化模型上给出这些术语和术语间相互关系的明确定义,实现对领域知识的推理。从知识共享的角度来说,本体是通用意义上的概念定义集合,是在各种知识系统间交换知识的共同语言。4.2 本体的构建规则在基于本体的实际应用中,构建本体是一项基本任务。一方面,所建立的本体必须满足一定的质量要求,即描述能力是否足够、描述粒度是否合理,以及是否能完整描述领域内的知识等。另一方面,由于本体构建的过程需要大量的人工参与,因此还需要考虑如何尽可能减少过程中的繁重工作,所以需要优秀的本体编辑工具,也需要利用现有的技术尝试半自动生成一些本体 8。目前已有的本体构建很多,出于对各自问题域
19、和具体工程的考虑,构造本体构建的过程也是各不相同的。由于没有一个标准的本体 构造方法,不少研究人员出于指导人们构造本体构建的目的,从实践出发,提出了不少有益于构造本体的标准,其中最有影响的是Gruber 于1995年中提出的5 条规则:明确性和客观性:即Ontology 应该用自然语言对所定义术语给出明确的、客观的语义定义。完全性:即所给出的定义是完整的,完全能表达所描述术语的含义。一致性:即由术语得出的推论与术语本身的含义是相容的,不会产生矛盾。最大单调可扩展性:即向Ontology 中添加通用或专用的术语时,不需要修改其已有的内容。最小承诺:即对待建模对象给出尽可能少的约束。当前对构造On
20、tology 的方法和方法的性能评估还没有一个统一的标准,因此,还是一个需要进一步研究的方向。不过在构造特定领域Ontology 的过程中,有一点是得到大家公认的,那就是需要该领域专家的参与。4.3 Ontology的描述语言Ontology的表示方式是多种多样的。可以用自然语言来描述Ontology,也可以用框架、逻辑语言或语义网络等来描述Ontology。现代数据管理技术研究总结报告:语义 Web 的理论基础与技术基础Paper No: Date: Page 8 of 10RDF(S)框架描述逻辑DAML-ONTOILDAML+OIL OWL图 4 本体表示模型和语言关系图大量的研究工作者
21、活跃在该领域,因此诞生了许多种本体描述语言 10,有RDF和RDF-S、OIL、DAML、OWL、KIF、SHOE、XOL、OCML、Ontolingua、CycL、Loom。简单把它们归类如下: 和Web相关的有:RDF和RDF-S、OIL、DAML、OWL、SHOE、XOL。其中RDF和RDF-S、OIL、DAML、OWL、XOL之间有着密切的联系,是W3C的本体语言找中的不同层次,也都是基于XML的。而SHOE是基于HTML的,在HTML的一个扩展、和具体系统相关的(基本只在相关项目中使用的)有:Ontolingua、CycL、Loom。KIF已经是美国国家标准,但是它并没有被广泛应用于
22、互联网,作为一种交换格式更多的应用于企业级。与资源描述层相比,本体提供了对领域知识的共同理解和描述,具有更强的表达能力,支持可保证计算完整性和可判定性的逻辑推理。从整个语义网体系结构来看。本体层起着关键的作用。它不仅弥补了资源描述层的不足,而且其概念模型也是逻辑层(Logic)以上各层发挥作用的基础,因为只有在对领域知识形成一致性描述的基础上才能进行相应的规则描述、推理和验证。 Ontology与语义Web,语义Web就是建立一个以本体为基础的具有语义特征的网络,使计算机能够真正理解数据的语义。随着语义Web在实际应用中的推广,人们期待已久的各种智能化网络应用将成为现实。将本体技术引人Web技
23、术中,由于本体具有丰富的语义和广泛的关系,那么将从根本上解决目前Web的信息格式的异构性、信息语义的多重性以及信息关系的匾乏和非统一性。它将变革现有的Web服务。使之成为智能化的语义Web服务,使Web实现从自动化到智能化的转变成为可能。4.4 语义网查询语言语义网的应用离不开查询技术的支持。针对不同的表示语言XML、RDF和OWL,研究者们开发了众多的查询语言(Bry et al.,2004)。RDF的查询语言主要有:RDQL(Seaborne,2004a)、RQL(christophides et al.,2000)、SeRQL(Aduna,2002)、N3QL(Berners-Lee,2
24、004)、Triple(Sintek et al.,2001)等。OWL的查询语言还不很成熟,OWL-QL(Fikes et al.,2003)是当前主要的一种OWL查询语言。OWL-QL规范是在抽象结构层次上给出的,不包括外部语法的精确定义。因此它不仅可以使用OWL语言,还可以很容易地支持其他的知识表示格式,包括语义网早期的表示语言(入RDFS和DAML+OIL)和一阶逻辑(如FOL和KIF)等。OWL-QL在语义层上是严格定义的,形式化地给出了查询问题、查询应答和应答知识库之间的关系。与传统的查询语言不同,OWL-QL的查询需要对OWL知识库进行推理,支持应答格式的设定、多知识库的选择和使
25、用。5 语义网研究的关键问题在目前来看,语义网涉及的主要研究问题包含如下几个方面。(1) 语义网知识表示模型;(2) 语义网表示语言;(3) 语义网查询技术;现代数据管理技术研究总结报告:语义 Web 的理论基础与技术基础Paper No: Date: Page 9 of 10(4) 语义网逻辑基础;(5) 语义网安全;语义网构想了Web辉煌的未来。但在语义网的实现道路上还有许多尚待解决的重要问题,而且对于这些问题研究者各抒己见,莫衷一是。6 结论当前WWW上的信息主要是为人类阅读而设计的,而语义Web试图将WWW上的海量信息以一种机器可理解的方式组织起来,提供数据的语义关系的表达手段,以满足
26、日益增加的Web应用对数据互操作性的要求。XML提供了对数据表达的语法的统一描述,RDF和RDF Schema提供了对数据语义的表达手段。本体论(Ontology)是关于领域内共享概念的形式化的规格说明,在语义Web中起重要作用,本体语言形成关于本体的逻辑描述。这祥从下到上形成了语义Web的层次体系结构。致谢(Acknowledgements)致谢内容 致谢内容 致谢内容 致谢内容 致谢内容 致谢内容 致谢内容。参考文献(References)1 Semantic Web homepage http:/www.w3.org/2001/sw/2 Tim Berners-Lee http:/www
27、.w3.org/People/Berners-Lee/3 陆建江,张亚非编著 语义网原理与技术M.北京,科学出版社,20074 RDF Primer W3C Recommendation http:/www.w3.org/TR/2004/REC-rdf-primer-20040210/5 XML 基础 W3School http:/ 王能斌,王洌编著 Web数据的管理和交换M.北京,科学出版社,20067 邓志鸿 唐世渭 张铭 杨冬青 陈捷 Ontology 研究综述J 北京大学学报(自然科学版),第 38 卷,第 5 期,2002 年 9 月8 Introduction to the Sem
28、antic Web.Ivan Herman, W3C Head of Offices Beijing, China, 12 November, 2003 http:/www.w3.org/2003/Talks/1112-BeijingSW-IH/Chinese_English/Overview.html9 孟小峰 Web 数据管理综述J 计算机研究与发展 第 38 卷,第 4 期,2001 年 4 月10 卢刘明,朱国进,陈家训.语义Web中几种语义描述语言的分析比较J.计算机工程.2005,31(3),86-87 附录(Appendix )参考文献7阅读摘要起源于哲学的本体论(ontolog
29、y)在信息科学领域受到广泛关注,其重要性已在许多方面表现出来,如知识工程、数据库设计和集成、信息检索与获取、软件工程、自然语言处理等。尤其是本体论在Web上的应用导致了语义Web的诞生,有望解决Web信息共享时的语义问题,实现世界范围的知识级信息集成。作为一种有效表现概念层次结构和语义的模型,Ontology 被广泛地应用到计算机科学的众多领域。这是一篇关于本体论的综述性文章,介绍了本体的概念、本体的理论研究,包括本体的建模元语、分类、表示语言、构造规则以及目前研究本体的权威机构,对与本体相关的概念进行了介绍,分别探讨了本体与语义网络,本体与语义Web,Ontology理论研究、Ontology 在信息系统中的应用以及在语义Web 中的地位等方面加以了系统阐述。对目前Ontology 的研究与应用现状进行了综述性地介绍。Ontology 是描述概念及概念之间关系的概念模型,通过概念之间的关系来描述概念的语义。现代数据管理技术研究总结报告:语义 Web 的理论基础与技术基础Paper No: Date: Page 10 of 10以下为参考文献7全文(打印稿中一起装订在后面)