1、工学硕士学位论文基于网格技术的企业异构数据集成研究段瑞珍哈尔滨理工大学2008 年 3 月国内图书分类号:TP393工学硕士学位论文基于网格技术的企业异构数据集成研究硕 士 研 究 生: 段瑞珍导 师: 高中文申请学位级别: 工学硕士学 科 、 专 业: 控制理论与控制工程所 在 单 位 : 自动化学院答 辩 日 期 : 2008 年 3 月授予学位单位: 哈尔滨理工大学Classified Index:TP393Dissertation for the Master Degree in EngineeringEnterprise Isomerism Data Integration Rese
2、arch Based on GridCandidate: Duan RuizhenSupervisor: Gao ZhongwenAcademic Degree Applied for: Master of EngineeringSpecialty: Control Theory and Control EngineeringDate of Oral Examination: March,2008University: Harbin University of Science and Technology哈尔滨理工大学硕士学位论文原创性声明本人郑重声明:此处所提交的硕士学位论文基于网格技术的企
3、业异构数据集成研究,是本人在导师指导下,在哈尔滨理工大学攻读硕士学位期间独立进行研究工作所取得的成果。据本人所知,论文中除已注明部分外不包含他人已发表或撰写过的研究成果。对本文的研究工作做出重要贡献的个人和集体,均已在文中以明确方式注明。本声明的法律结果将完全由本人承担。作者签字: 日期: 年 月 日哈尔滨理工大学硕士学位论文使用授权书基于网格技术的企业异构数据集成研究系本人在哈尔滨理工大学攻读硕士学位期间在导师指导下完成的硕士学位论文。本论文的研究成果归哈尔滨理工大学所有,本论文的研究内容不得以其它单位的名义发表。本人完全了解哈尔滨理工大学关于保存、使用学位论文的规定,同意学校保留并向有关部
4、门送交论文的复印件和电子版本,允许论文被查阅和借阅。本人授权哈尔滨理工大学,可以采用影印、缩印或其他复制手段保存论文,可以公布论文的全部或部分内容。本学位论文属于保密,在 年解密后适用本授权书。不保密。(请在以上相应方框内打)作者签名: 日期: 年 月 日导师签名: 日期: 年 月 日哈尔滨理工大学工学硕士学位论文- I -基于网格技术的企业异构数据集成研究摘要随着竞争的全球化,信息化水平已经成为制约企业发展的一个重要因素。为了增强竞争力,企业纷纷引入 ERP、SCM 等多种信息系统以提高自身的信息化水平。但各信息系统中的数据形式不同,各自形成信息孤岛,系统间的数据互操作很难,严重影响了企业的
5、信息化进程。网格技术的出现为解决这一问题提供了一种崭新的模式。网格的开放性、共享性、协同性以及平台、语言无关性,将更便于基于网格服务的异构数据动态集成和交互,对企业信息化的推进具有较强的理论和现实意义。本文研究了在 Linux 基础平台上,构建企业异构数据集成网格服务的问题。主要从以下几个方面展开:首先,在分析企业现行异构数据集成方法不足的基础上,提出了基于OGSA/WSRF 的异构数据集成模式,并基本完成了该模式整体框架及核心模块的设计,详细描述了各模块的功能和工作原理。其次,在该模式下用 GT4 开发出异构数据集成的网格服务。针对企业数据多样化的特点,重点介绍了消除数据模式异构性的 XML
6、 方法,以及消除组件异构性的 SOAP 和 WSDL 方法。再次,用 UDDI 和 WSIL 注册网格服务,用 GSD 算法发现网格服务后,使用简单客户端程序实现网格服务的调用。最后,对该设计进行了单点软件测试,并进行了相关性能指标的分析评价。与以往服务绑定式的异构数据集成方法相比,该平台具有按需动态集成的优势。该方案实现了传统 Web 服务集成解决方案与网格技术的融合,具有较高的商业价值。关键词 企业信息化;网格技术;异构数据集成哈尔滨理工大学工学硕士学位论文- II -Enterprise Isomerism Data Integration Research Based on GridA
7、bstractWith globalization of the competition,the information-based level has already become an important factor of restricting enterprises developmentIn order to strengthen the competitiveness,enterprises introduce many kinds of information systems such as ERP,SCM one after another to improve their
8、information-based levelBut the problem of “detached island of information”,which is caused by the different constructing data resources existing in different information systems,makes data co-operation much difficult,and then influences the information-based process of enterprises seriously Appearan
9、ce of grid technology provides a new mode for solving this problemThe grid has characteristics of opening,sharing,coordination,and be not relative to flatform and languageThese characteristics are convenient for the dynamically integrating and exchanging of the isomerism data based on grid service,a
10、nd these make the grid technology significant in promoting the enterprises informationization both theorically and realisticallyIn this paper,the realization of integrating and applying of enterprises isomerism data as grid service on Linux basic platform is studied and constructedIt mainly further
11、discusses the following aspects:This paper begins with analyzation of the insufficient of present enterprise isomerism data integration solutionBased on this, the paper proposes the OGSA RF isomerism data integration mode,and basically completes the design of whole frame and key module of this mode.
12、 Moreover,the paper also describes the function of every module and operation principle in detailSecondly,the paper develops the grid service of isomerism data integration under this mode with GT4Considering the business datas characteristic of diversification,the paper introduces a method to elimin
13、ate data pattern isomerism 哈尔滨理工大学工学硕士学位论文- III -with XML, as well as a method to eliminate module isomerism using SOAP and WSDLThen,the paper registers the net service with UDDI and WSIL,uses GSD algorithm to discover the grid service,and uses the simple client program to access the serviceFinally,
14、the single point software test is performed to the design,and the analysis and appraise are also carried to relevant performance indexesComparing with the former service binding,the advantage of this platform is obvious:it can integrate data resource dynamically according to enterprise needThis sche
15、me realizes the integration of traditional Web service solution and grid technology,and it is much valuable commerciallyKeywords enterprise informationization,grid technology,isomerism data integration哈尔滨理工大学工学硕士学位论文- IV -目录摘要 .IAbstract II第 1 章 绪论 11.1 研究目的及意义 .11.2 企业异构数据集成研究现状 .21.3 本文主要工作 .6第 2
16、章 网格技术 82.1 网格概念 .82.2 网格的结构 .92.2.1 五层沙漏结构 102.2.2 OGSA 结构 .112.2.3 WSRF 结构 .152.3 Globus 支撑平台及开发环境 172.4 本章小结 .18第 3 章 核心开发技术和平台 203.1 Java/J2EE 技术 .203.1.1 Java 对企业异构数据集成的支持 .203.1.2 J2EE 对企业异构数据集成的支持 213.2 Web Service 技术 .243.2.1 Web Service 的基本概念 243.2.2 Web Service 的特征 263.2.3 Web Service 相关技术
17、 273.3 Fedora Core 6 Linux 平台 303.4 本章小结 .31第 4 章 企业异构数据集成方案设计 324.1 企业异构数据集成平台开发 .324.1.1 基于 OGSA/WSRF 的异构数据集成模式 .324.1.2 基于 OGSA/WSRF 的企业异构数据集成目标 .334.1.3 基于 OGSA/WSRF 的异构数据集成方案设计 .33哈尔滨理工大学工学硕士学位论文- V -4.1.4 基于 OGSA/WSRF 集成的核心层网格服务设计 .354.1.5 网格运行环境的创建 364.2 利用 GT4 实现网格服务 384.3 采用 Web Service 消除数
18、据异构性 .414.3.1 消除数据模式异构性 424.3.2 基于 SOAP 和 WSDL 的组件间异构性的消除 .444.4 本章小结 .49第 5 章 企业异构数据集成方案实施 505.1 网格服务的注册 .505.2 网格服务的发现 .525.3 网格服务的调用 .545.4 方案评价体系 .545.4.1 性能测试 545.4.2 评价指标 585.5 本章小结 .58结论 60参考文献 61攻读硕士学位期间发表的学术论文 65致谢 66哈尔滨理工大学工学硕士学位论文- 1 -第 1 章 绪论1.1 研究目的及意义从上世纪七、八十年代开始,随着计算机在企业内的广泛应用,企业建立了各种
19、各样的信息系统。这些系统可能是在不同的时间由不同的公司开发,且开发过程是基于不同的系统平台或编程环境的,它们都有自己的用户系统、资源库、权限管理,致使彼此之间数据异构而互不相通,形成相对孤立的信息孤岛 1。企业虽然可以在一定程度上共享这些数据资源,但是这种共享相对来说是静态的、局限于某个系统中,这就给企业的综合分析、决策支持等带来很大困难。此外由于这样的企业信息共享结构可扩展性差,升级换代困难,开发成本高,进而不利于推进企业信息化进程。近年来随着互联网的迅速普及和企业信息化建设的进一步发展,企业的信息化数据资源越来越需要同时在多个应用系统之间实现共享,以提高企业的运作效率,提升自己的竞争优势。
20、然而由于市场竞争和技术方面的原因,企业异构数据形成的信息孤岛,严重制约了企业的高效运作。同时由于新的商业应用的不断引入,包括企业资源计划(ERP)、供应链管理(SCM)、客户关系管理(CRM)等多种应用系统,在企业各部门规划、占有和使用资源中发挥了重要作用,但由于数据资源存在异构问题,使得这些系统有很多重复的功能却因为不能互访和互操作,而造成信息的重复录入,进而增加了企业投入,这一问题日渐成为许多企业信息化建设中的最大瓶颈。另一方面企业与企业之间的交流与合作日益增加,协同商务和虚拟企业也迫切需要企业有一个高度集成和开放的信息平台,实现企业间的异构数据整合 2。不同应用的数据差异,使得企业不能高
21、效地运转,造成企业信息化的程度难以满足当今日益激烈的市场竞争 3。如何将这些数据资源低代价、方便地连接在一起,实现大范围跨企业实体的异构数据互访与互操作,这是摆在开发人员面前的一大问题。为了解决上述异构数据间孤立的问题,一种办法是推倒现有各个系统,重新开发一个覆盖到企业各个部门的统一的新系统来替换原有各个孤立的应用系统。但是考虑到成本、实施周期和实施难度等因素,这种办法不是一种切实可行的解决方案。另一种办法是根据实际需要从整体来考虑企业的信息系统,对各个应用系统进行总体规划,选择一个合适的集成平台,把企业的各个“信息孤岛”有机地集成起来。这种解决方案不管是从实施难度,还是从实施成本、哈尔滨理工
22、大学工学硕士学位论文- 2 -周期和技术上考虑都是切实可行的,这也是构成企业信息化迅速发展的源动力。因此找到一种企业异构数据集成的新模式就成了当今企业信息化发展的迫切需求。企业应用集成 EAI(Enterprise Application Integration)是指在企业中的任何应用间可以无限制地共享数据和资源,目前它是国内外研究的一个非常热门的领域。网格技术是一种全新的技术,它提出的灵感源于电力网,人们希望使用网格上的各种资源能像使用电力一样,打开开关就能实现照明,而不用去考虑它是由哪里提供、怎么提供。网格技术采用面向服务的体系结构 SOA(Service Oriented Archite
23、cture)提供企业间的服务和应用,为企业信息化模式的创新提供了巨大的发展空间。本文借助于网格的协同、共享特性,提出了消除企业现存数据异构性而导致的信息孤岛问题的一套解决方案。与传统方案相比,该方案具有诸多优越性:基于 Web 服务开发架构,具有良好的扩展性, Web 服务更便于设计、开发、使用和维护;发布和使用服务的应用程序间松散耦合;基于开放标准UDDI、SOAP 、HTTP 和 XML,具有开放性等等。该方案主要解决了信息化应用中异构数据的共享、互连和互操作问题。其将信息需求者屏蔽于异构性之外,为企业的内、外部数据提供更好的互访,促进管理者更快、更好的制定商务决策,进而提高企业的效率和经
24、济效益 4。1.2 企业异构数据集成研究现状传统的企业应用集成通常包括企业内部的 EAI 和企业间的 B2Bi(Business to Business integration)。EAI 主要是基于企业内部业务,如 CRM、ERP、SCM以及 OA 等企业内部子系统的集成。它是将企业内部多个不同数据源和相互分离的应用进行协同自动化处理的解决方案,其功能主要是协调企业现有的和将来的应用程序、数据及员工与合作伙伴之间的互动,以便实现对关键业务流程实时的可视化及有效管理。B2Bi 则侧重企业之间的业务应用集成,即跨越防火墙的集成,企业将业务延伸到合作伙伴,如分销商、零售商、供货商、物流运输商等的业务
25、流程中 5。关于企业异构数据集成方面的研究已经进行了很长时间,产生了很多实用技术,大致发展过程如下 6,7 :首先是中间件技术 8。它是在软件架构的层次上提出来的,位于操作系统或数据库等系统软件和应用软件之间。它屏蔽系统软件的差异,为上层应用软哈尔滨理工大学工学硕士学位论文- 3 -件提供统一的接口或协议。数据的分布性、异构性是集成过程中的最大障碍,中间件技术通过在数据库系统和应用系统之间构建中间层,屏蔽了异构数据的这些特性,将数据集成的工作交由中间层上的组件来实现,这样对应用系统来说,多数据源就同一个数据源没有什么区别,使得应用系统的开发更加简单,对数据库的操作都通过中间层来进行,为应用层提
26、供完全一致的接口 9。传统的中间件技术有:基于 CORBA 的企业应用集成、基于 MOM 的企业应用集成和基于 J2EE/JCA 的企业应用集成架构 10。在实际应用中,往往是多种方式共同使用,目前企业集成最主要的模式是消息中间件模式,如 IBM MQ series、微软的 MSMQ 等。该模式通过一个中间件产品实现各种系统间的交互,然而,由于不同的 IT 厂商所提供的不同产品互不兼容,因此,在进行企业应用系统集成时,需要进行定制化的开发,系统实现的效率低、开发工作量大、周期长。而且,采用中间件技术进行异构数据的无缝集成是十分困难的,仅仅是设法使各种技术一起工作,就要花费 40的 IT 预算,
27、使得近半数的投资花费在不直接产生商业价值的事情上 11。其次是面向服务的企业数据集成 12。基于 XML 技术的 Web 服务为面向服务的企业应用集成带来了新的契机,Web 服务的使用改变了目前的开发模式和应用部署的费用规模 13-15。企业信息化过程中的异构数据集成目的是培养企业对市场的快速反应能力,从而提高企业经济效益和企业竞争力的过程。随着Web 技术的不断发展,分布式系统的日益完善,尤其是近年来 Web 服务技术的日益成熟,企业数据资源集成也随之得到了极大的发展。为使企业实现业务合作、更好地实现跨平台的互操作、提高分布系统的集成度,采用 Web Service 技术为异构数据的交互提供
28、了有力的手段。Web 服务技术可以实现企业应用集成,但它没有构成一个完整的解决方案,如:Web 服务可能没提供组织所需级别的安全性、可靠性、性能和正常工作时间。这就要求在各个应用系统中构建的服务,能以一种统一和通用的方式进行交互,并同时拥有可扩展的特性。因此需要一种能够装配构件和服务的集成框架,该框架能够快速地开发、集成和重用应用程序,快速、动态地交付应用程序。这就需要一种新的面向服务的体系结构去实现 16。网格技术发源于美国,随着它在世界各个国家和地区的政府及业界大公司中的推广和研究,以及网格基础设施建设的发展,网格技术的全面资源共享和协同特性,越来越吸引企业的眼球。在针对“应用网格企业最想
29、在哪些方面获得收益”的问卷调查中,22%是共享异构数据;20%是要节省企业整体投入成本;16% 为更好地利用 IT 资源;改善业务流程占 8%;更好地实现运营管理占哈尔滨理工大学工学硕士学位论文- 4 -5%;提高技术优势达 4%;以上均有考虑的占 25%。为此网格义不容辞的担负起了开创异构数据集成新模式的重任。目前,网格技术仍然处于研究开发阶段,网格技术尚不成熟,系列规范正在不断地开发、发展和修订中,同时也有很多新的规范出现,这是挑战也是机遇。从发展的角度看,在异构数据集成中采用网格技术是大势所趋,作为 IT 业内的技术人员在项目设计的过程中应该顺应这一趋势,即采用先进的、低成本的解决方案,
30、积极的尝试应用网格技术。同时,在实际的系统设计过程中,应该把它和一些成熟的技术(如 J2EE,Web Service 等)结合起来,使用开放的网格体系结构来支撑而不是替代现存的底层结构。从长远来看,网格技术必将对企业信息化发展产生巨大而深远的影响。目前网格技术在共享和集成应用中的研究也取得了一定成果。下面是国内外现状的对比:1国外研究概况 NPACI(National Partnerships for Advanced Computati- onal Infrastructure) Grid 是由美国自然科学基金会 (NSF)资助的网格研究项目。其目的是建立一个能够满足 NPACI 科学计算需
31、求的先进计算机体系。NPACI Grid 由一系列分布于各个资源站点的硬件资源、软件资源、网络资源及数据资源构成。这些站点主要包括圣地亚哥超级计算中心(San Diego Supercomputer Center),德克萨斯先进计算中心 (Texas Advanced Computing Center)及密歇根大学(University of Michigan)。IPG(Information Power Grid)是由美国宇航管理局 NASA 支持的网格研究项目。它是一个高性能的计算网格,网格用户可以通过 IPG 中间件从任何地点访问广泛分布的异构的各种资源,NASA 内部的科学家和工程师都
32、可以成为 IPG的用户。GIG 全球信息网格(Global Information Grid)是目前美国军方正规划实施的一个宏大网格计划。它是美军 2010 网络中心战(Net Centric Warfare)计划的基础性研究项目,旨在建立一个以成熟的商业技术为基础的真正分布式的运行与传送系统。欧洲国家在 2001 年正式启动了网格研究的一系列项目。英国政府投资 2亿英镑左右支持网格研究项目,并确定了用网格计算技术构建 e-Science。EDG欧洲数据网格(European DataGrid)于 2000 年 12 月由欧盟提供一千万欧元资金启动。它主要针对 CERN 的高能物理应用,解决海
33、量数据的分解存贮和处理问题,提供一种突破地理局限、允许分布在世界各地的工作者交互、共享数据和设备,共同开展科学研究的合作环境。类似的还有:法国启动的国家网格计划,前 3 年计划的经费投入是 1000哈尔滨理工大学工学硕士学位论文- 5 -万美元。荷兰国家网格计算计划将使 5 个大学的研究人员能够更有效地在生物信息到粒子物理等科研项目方面进行合作。这一网格计算计划包含 5 台 Linux群集系统,通过荷兰大学的高性能网络 SURFNet 连接在一起。韩国的网格计划 N*Grid,2002-2006 年的五年计划将投资 3500 万美元,但不包括网络和高性能计算机的投入,后者每年投入为 1500
34、万美元。日本的 Data Farm 网格项目,主要用于 Petabyte 数据量的高能物理实验数据的分析和处理,与欧洲数据网格相连。中国台湾也启动了“知识创新网格”的三年科研计划(2003-2005),总投资为 3000 万美元。2国内研究概况 国外网格的研究正在如火如荼地进行着,国内也毫不落伍,网格基础设施建设和网格技术研究工作也在紧张进行。2002 年 4 月 5 日至 6 日,科技部召开了“网格战略研讨会” ,确认将网格的研究和应用列为“863 计划”的一个专项,随即成立了专项专家组。目前为止,我国己经完成的网格研究项目主要有清华大学的先进计算基础设施 ACI(Advnaced Comp
35、utational Infrastructure)和以中科院计算所为主的国家高性能计算环境NHPCE(National High Performance Computing Environment) 17。此外,中国国家网格由国家 863 计划重大专项支持,是聚合了高性能计算和事务处理能力的新一代信息基础设施的试验床。通过资源共享、协同工作,以技术创新推动国家信息化建设及相关产业的发展;2002 年中科院提出的织女星信息网格旨在有效便捷的解决广域、异构数据的共享、互连和互操作的问题。织女星信息网格的使用模式是让用户在任何时间、地点以及任何设备上使用网格,以达到高生产率服务;上海网格是上海市科学
36、技术委员会 2003 年度重大科技攻关项目,目标是研究符合国际标准的信息网格体系结构和关键技术,开发具有自主知识产权和推广价值的信息网格系统软件、应用开发环境和虚拟研究平台,通过对虚拟组织中的计算、数据、软件等各种信息的共享和协同,建立具有上海特色的信息网格;华中科技大学的空间信息网格 SIG(Spatial Information Grid)是一种汇集和共享地理上分布的海量空间信息资源,对其进行一体化组织与处理,从而具有按需服务能力的、强大的空间数据管理和信息处理能力的信息基础设施。空间信息网格是一个创新性的体系框架,它为空间信息用户对空间数据进行获取、共享、访问、分析和处理等各种需求提供了
37、实用可行的解决思路和实施方案。网格技术为空间数据获取与处理提供了新的技术途径,具有非常广阔的应用前景。网格技术领域的 OGSA-DAI(Open Grid Serviees Architecture-Data Access and Integration),是一种比较常用的中间件,其设计目标是提供一种简便的方哈尔滨理工大学工学硕士学位论文- 6 -法,在网格环境中实现数据的访问集成 18。OGSA-DAI 为 OGSA 规范提供扩展,允许数据源,如数据库,在一个 OGSA 框架中被访问。通过 OGSA-DAI接口所能达到的最终目标是:分散的、异构的数据源能像单一逻辑的数据源一样被访问和控制 1
38、9。但 OGSA-DAI 仍然存在一定的缺陷:1缺少数据库自动注册服务。OGSA-DAI 中间件每次要增加新的数据库连接信息时必须手工改写数据库的相关配置文件,而且改写过程比较复杂,容易出错,很不利于注册新的数据库。2数据库连接性能差。由于 OGSA-DAI 中间件每次调用一个数据服务连接数据库的时候是采用直接连接的方法,使用完毕后就直接断开数据库的连接。这种直接连接数据库的方法系统响应时间长、效率低,给服务器和系统网格的性能带来很大的影响。3异构数据库的数据集成性差。OGSA-DAI 提供了访问关系数据库、XML 数据库和文件目录的接口,但没有真正实现对异构数据源的数据集成。随着企业信息化的
39、推进,企业内部存在着大量的异构数据库资源,如何动态、有机地整合这些资源以满足不同应用、不同用户一站式、个性化的需求已成为制约企业信息化的技术性问题 20。传统的应用集成技术已无法适应Internet 环境下松耦合的集成需求,本文将提出的基于 OGSA/WSRF 的企业异构数据集成框架,它是一种面向服务的体系结构,作为松散耦合的、可复用的软件模块,它支持 Internet 上跨操作系统、硬件平台和编程语言的应用集成。以往的“服务”通常是指标准的 Web 服务以及 OGSA 组织的网格服务两种实现方式,目前 OGSA 组织会同业界推出的 WSRF,借助成熟的 Web 服务开发工具与技术,基于标准
40、Web 服务实现网格服务的功能,这使得基于OGSA/WSRF 的企业应用集成成为可能 21。本文通过 OGSA 中的开放式网格服务基础结构 OGSI 的核心接口及 Web服务资源框架 WSRF,借助标准 Web 服务,结合 XML 技术可解决上述 Web服务解决方案中存在的问题,真正实现企业异构数据动态集成的目标。1.3 本文主要工作本文通过分析企业信息化中存在的数据异构性问题,结合现有的各种消除数据异构性解决方案中存在的不足,借助 XML、 SOAP 等标准的 Web Service技术,融入网格技术的全面资源共享和协同技术,实现了企业异构数据的无缝共享和交换信息,实现了对企业原有各种异构数
41、据的集成和管理,进而满足了商务智能、协同办公、业务流程自动化等高端企业信息化需求。本文的主要工哈尔滨理工大学工学硕士学位论文- 7 -作如下:1通过分析企业信息化中异构数据集成问题的研究现状,以及网格技术在该领域的国内外研究概况,阐明了传统异构数据集成取得的成果和存在的不足。2详细阐述了网格技术发展状况、目前的几种标准网格结构。以及本课题所用到的 Java/J2EE、Web Service 等核心技术和 GT4、Fedora Core Linux 等开发平台。3结合传统企业异构数据集成方案的不足,以及目前企业异构数据集成的发展趋势、集成需求和目标,提出了基于 OGSA/WSRF 的企业异构数据
42、集成的设计方案。深入分析了该方案在实现企业内部、企业之间异构数据按需动态集成目的方面的技术可行性。4针对企业各信息化系统互访和互操作频繁等行业特点,给出了基于OGSA/WSRF 的企业异构数据动态集成方案的具体实施过程,详细阐述了网格服务注册、发现和调用过程。5提出了一种针对该方案的测试方法,进行了网格节点的单点性能测试和分析。 哈尔滨理工大学工学硕士学位论文- 8 -第 2 章 网格技术2.1 网格概念网格是建立在互联网之上的新一代基础设施,是一个无缝集成的协同计算与资源环境。网格能够充分吸纳各种资源,并将它们转化成一种随处可得的、可靠的、标准的,同时还是经济的计算能力 22。阿岗国家实验室
43、的资深科学家、网格概念的提出者、美国网格项目的领导人伊安福斯特(Ian Foster),曾在1998 年主编过的网格:21 世纪信息技术基础设施的蓝图中这样描述网格:网格是构筑在因特网上的一组新兴技术,它将高速互联网、高性能计算机、大型数据库、传感器、远程设备等融为一体,为科技人员和普通老百姓提供更多的资源、功能和交互性。2000 年在网格的剖析中他讲到:潜藏在网格概念之中确切而特殊的问题就在于,实现对等的资源共享和解决动态的、分布式的虚拟组织所遇到的问题。我们所关心的共享不仅仅是简单的文件交换,更强调直接对计算机、软件、数据以及其它资源的直接访问,这种需求在工业,科学以及工程界等许多领域都会
44、遇到。从广义的角度,网格就是一个集成的计算与资源环境,或者是一个计算资源池。它能够充分吸收各种计算资源,并将它们转化为一种随处可得的、可靠的、标准的、经济的计算能力。这里的计算资源包括各种类型的计算机、网络通信能力、数据资料、仪器设备、甚至是人等各种相关的资源。从狭义的角度,网格一般被称为计算网格,即主要用于解决科学与计算问题的网格。网格计算就是将分布的计算机组织起来协同解决复杂的科学与工程计算问题,网格资源主要是指分布的计算机资源。根据网格体系结构及目标,网格可以分为计算网格、数据网格及服务网格。计算网格是狭义上的网格,包括分布式超级计算、高性能计算;数据网格是以数据密集型处理为核心,其目标
45、是开发出新一代速度更快、承受能力更大的数据网格,解决互联网上提供的大量异构数据的共享;服务网格的目标是满足任意时空“按需索取”的服务,协同运算及媒体服务。此外根据应用的种类及网格计算求解问题的特点,又提出多种网格,如以解决科学问题为核心的科学网格,以解决全球环境问题为核心的地球系统网格等,以及地震、军事网格等 23。网格具有以下特点:哈尔滨理工大学工学硕士学位论文- 9 -1分布性和共享性。分布性是网格的一个最主要的特点。通常网格上的各类资源类型复杂、规模较大、跨越地理范围较广,在分布式计算环境下,需要解决资源与任务的分配和调度问题、安全传输与通信问题、实时性保障问题、人与系统以及人与人之间的
46、交互问题等。网格的根本特征是资源共享,透明而且高效率地提供各种服务。2自相似性。网格具有自相似性特征。网格的局部和整体之间存在着一定的相似性,局部往往在许多地方具有全局的某些特征,而全局的特征在局部也有一定的体现。网格的自相似性在网格的建造和研究过程中有重要的意义。3动态性和多样性。随着时间的推移,网格拥有的资源或功能可以增加或减少。网格可以从最初包含少量的资源发展到具有成千上万资源的大网格,因此它应从性能、功能、管理软件、兼容性等方面适应规模的变化,能解决不同结构、不同类别资源之间的通信和互操作问题。4异构性。网格可以包含多种异构资源,包括跨越地理分布的多个管理域。如构成网格系统的超级计算机
47、有多种类型,不同类型的超级计算机在体系结构、操作系统及应用软件等多个层次上可能具有不同结构。5多级管理域。由于构成网格计算系统的超级计算机资源通常属于不同的机构或组织,并且使用不同的安全机制,因此既需要各个机构或组织对其拥有的资源有自主的管理能力,又需要他们共同参与解决多级管理域的问题,以实现资源共享和互操作。本课题旨在借助网格技术的分布性和共享性特征,结合其它相关技术实现企业异构数据的无缝动态按需集成。2.2 网格的结构网格体系结构是网格的骨架和灵魂,是网格技术中最核心的部分。网格体系结构是关于如何构建网格的技术,它包括两个层次的内涵:一是要标识出网格系统由哪些部分组成,清晰地描述出各个部分
48、的功能、目的和特点;二是要描述网格各个组成部分之间的关系,如何将各个部分有机地结合在一起,形成完整的网格系统,从而保证网格有效地运转,也就是将各个部分进行集成的方式或方法。网格体系结构是网格的核心技术,只有建立合理的网格体系结构,才能更好地设计和建造网格并使网格有效地发挥作用 24。网格技术的权威伊安福斯特将网格体系结构定义为“划分系统基本组件、指定系统组件的目的与功能、说明组件之间如何相互作用的技术” 。哈尔滨理工大学工学硕士学位论文- 10 -网格技术目前流行的三个网格体系结构:五层沙漏结构、开放网格服务体系结构 OGSA、Web 服务资源框架 WSRF。网格的架构决定于网格体系结构的设计
49、,但不管采用何种体系结构,网格都必须具备资源管理、信息管理、数据管理、服务质量保证、安全等基本的功能模块。2.2.1 五层沙漏结构五层沙漏结构是由伊安福斯特等提出的一种具有代表性的网格体系结构,其影响十分广泛,它的特点就是简单,主要侧重于定性的描述而不是具体的协议定义,容易从整体上进行理解。在五层沙漏体系结构中,最基本的思想就是:以协议为中心,强调服务与 API 和 SDK 的重要性。五层沙漏结构的设计原则就是要保持参与的开销最小,即作为基础的核心协议较少,类似于 OS 内核,以方便移植。另外,沙漏结构管辖多种资源,允许局部控制,可用来构建高层的、特定领域的应用服务,支持广泛的适应性。五层沙漏结构根据该结构中各组成部分与共享资源的距离,将对共享资源进行操作、管理和使用的功能分散在五个不同的层次,如图 2-1 所示。图 2-1 沙漏形状的五层结构Fig. 2-1 Five-Level sandglass architecture在五层结构中,资源层和连接层组成了瓶颈部分,使得该结构呈沙漏形状。其内在的含义就是各部分协议的