1、Page 1,第4章 数据层技术基础,数据管理技术发展各阶段的主要特点 电子商务应用中数据库技术的作用与特征 数据模型的内容及发展历程 数据库管理系统的组成、功能与发展趋势 数据库、数据仓库设计的主要内容与特点 数据库访问接口的主要技术方法,Page 2,数据管理是指对数据的分类、组织、编码、存储、检索和维护,而数据库技术正是数据处理技术发展到比较成熟后的产物。可以说,数据库技术是电子商务的一项支撑技术,在电子商务的建设中占有重要的地位。 4.1 电子商务与数据管理技术 4.2 数据库平台及其技术基础 4.2 数据库访问接口技术,Page 3,4.1 电子商务与数据管理技术,4.1.1 数据管
2、理技术的产生与发展 4.1.2 电子商务时代的数据管理技术 4.1.3 电子商务系统数据层实现概述,Page 4,4.1.1 数据管理技术的产生与发展,信息需求与信息管理技术 手工管理阶段与文件系统阶段 数据库系统阶段 数据仓库阶段 数据仓库与决策支持 数据库技术发展个阶段比较,Page 5,数据、信息和知识,数据是一组表示数量、行动和目标的非随机的可鉴别的符号。数据是根据检测给出的事实,是未经组织的数字、词语、声音、图像。 在管理信息系统中,通常将信息定义为:信息是经过加工的,能对接收者的行为和决策产生影响的数据。 知识是信息的积累,但它不是各种信息的简单堆砌和叠加,而是种种信息单元通过内在
3、联系而建立起来的完整体系。也就是说,信息只有在被分类、加工,进行提炼,有时候需要经过升华(如牛顿第一定律的产生过程),才能变成知识。如对一辆新设计制造的汽车运行情况进行检测可得出一系列数据,对这些数据进行加工可形成一个有关这辆汽车性能的整体信息,而对信息进行各种分析便可得出的一定的结论及相关的原因,并可进一步制定改进措施。 知识就是认识论层次的信息,但是信息不一定是知识。如学校上课铃声响了,它给出了一种信息:上课的时间到了。显然,这种信息只能看作一种常识,而不能叫做知识。 美国学者霍顿用“一个事实的生命周期”来解释数据、信息和知识的关系。他认为,原始数据总是与新生事物联系在一起的,对原始数据的
4、评价产生了信息,成熟的信息构成知识,而事实的最终“死亡”形成了相关的知识库。相对而言,信息比数据重要,知识则比信息重要。 数据属于客观世界的描述语言,信息和知识属于认知世界,在数据的基础上加入了更多的语义。,Page 6,1、信息需求与信息管理技术,信息系统的唯一目的就是提供信息,信息需要有人提供,也必然有人用,这就是表示层的作用;数据需要转换成信息,商务逻辑层;信息的组织、存储和共享,数据层。 信息管理,也称信息资源管理(将信息作为一种企业生存和发展的重要资源),其出发点和目标,就是要充分地开发和有效地利用信息,同时在确保信息安全的前提下实现信息资源的最大限度的共享。 因此,信息管理可以看作
5、两条线:进与出。“进”包括:信息采集、组织和存储;“出”包括共享和发布。传统信息系统中,信息管理的特点是“小”和“静”,两条线的交汇点是数据库;而电子商务系统中,信息管理的特点是“广”和“动”,两条线的交汇点不明确,即有相对稳定和结构化比较强的数据库信息,也有动态更新和形式更多样的HTML等格式的信息,二者即是并列,又是互为服务。因此,在传统信息系统中,数据管理主要由数据库管理系统完成,提供统一的数据存储、管理和取用接口,数据平台也主要是数据库及其管理系统;而在电子商务系统中,不仅数据库系统的共享需求更多,而且还要提供更多的WEB信息服务。这里,信息比数据更贴切。 数据平台的主要作用在于提供信
6、息共享平台,包括数据存储和共享模式,共享模式决定信息组织和存储的方式。,Page 7,2、手工与文件系统阶段,手工管理阶段 文件系统阶段 这一阶段,主要是根据特定的具体应用设计和存储数据,数据的结构化和逻辑性不强,在处理技术上表现为数据和程序的依赖性,最终表现为:数据和程序缺乏独立性,数据冗余度大。,Page 8,文件系统,Accounting System,customer1,Accounts1,Payroll System,Employee1,Accounts2,Sales System,customer2,Products1,Page 9,3、数据库系统阶段,数据库系统中,强调了数据的整
7、合以及组织范围内的数据共享,Page 10,数据库系统,Accounting System,Payroll System,Sales System,Employee,customer,Products,Accounts,Storage,Page 11,数据库系统阶段,数据库系统的出现使信息系统的研制从围绕加工数据的程序为中心转变到围绕共享的数据库来进行。这既便于数据的集中管理,也有利于应用程序的研制和维护,提高了数据的利用率和相容性,从而提高了做出决策的可靠性。因此大型复杂的信息系统大多以数据库为核心。 数据库是一个通用化的综合性数据集合。它可以供各种用户共享且具有最小的冗余度和较高的数据与程
8、序的独立性。由于多种程序并发地使用数据库,为了能有效、及时地处理数据,并提供安全性和完整性,就需要一个软件系统数据库管理系统(DBMS),在建立、运用和维护时对数据库进行统一控制。 在这个阶段,企业的管理一般采用管理信息系统(MIS)。管理信息系统可以有效地管理企业内部的信息和信息流,是企业向管理现代化迈出的第一步。而企业管理信息系统可以说是数据库管理系统在功能上的一种扩展,因为数据管理仍是它的核心内容。电子数据交换(EDI)也渐渐发展起来。数据库管理系统对企业从事电子交易起到很大的支持作用。我们都知道EDI的一大特点(同时也是优点)就是把各种贸易单证的电子化和标准化。而数据库系统也是把数据管
9、理规范化和标准化了。因此,就可以比较容易地实现数据库系统的业务数据与EDI的单证之间的自动转换。与手工制作电子单证相比,提高了效率、减少了错误、降低了成本。 这一阶段主要表现在如何提供数据的逻辑性,以获取更高的共享性和更少的冗余;如何提高数据的集中管理能力,以方便和简化用户的数据处理工作;,Page 12,4、数据仓库阶段,企业需要实用而且成本低廉的决策支持系统,即如何从已有的大量数据中提取和使用决策信息,为决策提供辅助功能。,Page 13,5、决策支持与数据仓库(扩充),(1)数据仓库的概念 (2)数据库体系环境 (3)数据仓库技术的现状 (4)建立数据仓库需要研究的主要问题 (5)数据挖
10、掘(Data Mining) (6)数据仓库决策支持新技术,Page 14,(1)数据仓库的概念,数据仓库概念的形成是以Prism Solutions公司副总裁W.H.Inmon在1990年出版的建立数据仓库(Builsing the Data Warehouse)一书为标志的。数据仓库的提出以关系数据库,并行处理和分布式技术的飞速发展为基础,目的是解决在信息技术(IT)发展中存在的拥有大量数据、然而有用信息贫乏(Data rich-Information poor)的问题。公认的数据仓库之父W.H.Inmon将其定义为:“数据仓库是支持管理决策过程的、面向主题的、集成的。随时间而变的、持久的
11、数据集合。”其设计思想就是要建立一种体系化的数据存储环境,将分析决策所需的大量数据从传统的操作环境中分离出来,使分散的、难以访问的操作数据转换成集中统一、随时可用的信息。,Page 15,数据仓库的四个基本特点, 面向主题(Subject-Oriented):所谓主题,即是企业管理中关注的主要问题,如客户、产品、经营活动等,而不是传统的面向过程。 集成性 (Integrated):数据从面向应用的操作环境中提取到数据仓库中时都要经过集成化,在数据仓库中,集成性以多种形式表现出来,如一致的数据属性,一致的编码结构等。 时间变异性 (Time-Variant):在数据仓库中,数据记录总含有一个时间
12、属性。仓库中记录了数据随时间变化的历史。数据仓库的一个重要特点就是,数据一旦放入其中,除非特别需要,其值一般都不会被更新。 稳定性 (Non-Volatile):由于数据仓库只有两种基本操作:装载数据和访问数据,因此数据是相对稳定的,其修改和重组由管理员定期后台实现,这样数据仓库就可在物理层上做很多优化的工作。,Page 16,(2)数据库体系环境,随着信息系统应用的广泛和深入,为不同的决策者提供各自需要的信息已成为极其重要的概念。企业信息系统的层次性,管理者对于信息的不同需求,以及信息处理的层次性,已从根本上对传统的单一数据环境提出了挑战。 所谓数据库体系化环境,是指在一个企业或组织内,由各
13、面向应用的OLTP数据库以及各级面向主题的数据仓库所组成的完整的数据环境,在这个数据环境上建立和进行一个企业或部门的从联机事务处理到企业管理决策的所有应用。 数据库体系化环境的构成是广泛的,要建设一个企业的数据库体系化环境,不仅要求建立起各级数据库和数据仓库,还要求对各面向应用的数据库之间、各级数据仓库之间及数据库与数据仓库之间的界限和相互联系作出合理划分和明确描述,对在不同的数据库和数据仓库上的数据处理和应用要进行明确的定义和划分,对软硬件资源及其人员的配置作出明确规定,以使这个体系化环境真正成为一个结构清晰、层次分明、联系明确、可有序运行的有机整体。,Page 17,事务处理与分析处理,信
14、息系统中事务处理与分析处理并存,是导致应用系统复杂的重要因素,也是数据库体系环境中首先要解决的问题。只有正确区分两种处理类型,才可能合理划分应用需求,并在此基础上建立合理的数据环境。虽然在很多情形下,是根据管理决策层次来划分数据环境,但实际上,根据数据处理的特征和类型进行划分,才更能体现这种划分的实质,也才更能保证划分的正确性。 事务处理是指对数据库联机的日常操作,通常是对日常业务的流水记录进行维护,以记录的增、删、改为主,查询也多是对单个记录的简单查询。人们关心的是响应时间、数据的安全性和完整性。分析型处理则用于管理人员的决策分析,经常要访问大量的综合数据和历史数据。表1从处理类型、用户行为
15、、数据特征等多方面对事务处理和分析处理进行了详细的比较。,Page 18,OLTP与OLAP的比较,Page 19,数据仓库在体系化环境中的位置,操作型环境,数据仓库,局部仓库,个人仓库,操作型环境 全局级 部门级 个人级注: 表示数据 抽取的方向,Page 20,(3)数据仓库技术的现状,在美国1994年,一份由Meta Group (美国著名的IT咨询公司)对2000家企业的信息技术经理所作的调查报告中表明,90%以上的企业都计划在2000年前实现数据仓库。人们已看到,随着与数据相关的工具和服务要求的不断增长,使得数据仓库变成了产生效益的应用。 “DW+ROLAP+WWW=$”!Sourc
16、e Informatics (美国一个保健业的信息供应商)率先采用在线式商业数据仓库。其思路是使数据仓库中包含与特定集团相关的信息,将有效、可用的信息放在万维网上,获得了很大成功。 各计算机巨头公司也在不遗余力地开发数据仓库和数据发掘工具产品。Oracle 公司率先提出了企业级数据仓库解决方案,其Designer 2000 是一个CASE产品工具,可以实现数据仓库的设计。通过使用共享分析库,记录设计过程中对数据仓库的需求分析和说明信息,辅助设计人员完成数据仓库的数据建模工作。相应开发工具还有IBM的A Data Warehouse Plus! DB2, HP的 Open Warehouse ,
17、Sybase的 Warehouse Works等,为数据仓库及其思想的实现提供了可能。,Page 21,(4)建立数据仓库需要研究的主要问题,确定是否有必要,是否有条件建立数据仓库。包括:为什么要建立数据仓库?建立数据仓库的商业目标是什么?总的费用估计是多少?什么时候能够完成?对人员、技术、单位会有什么影响?是否有能力完成?风险是多少? 需要解决的技术问题。 数据提取:即用手动、半自动或自动的方法从相关信息源中提取有关的数据,并集成到数据仓库中。数据提取的难度与相应的数据源特性直接相关。尤其是近年来,随着Internet的飞速发展,Web页面也成为了数据源之一,如何从网上提取数据目前更是数据提
18、取的一个研究热点。 数据集成:数据仓库的集成问题是十分复杂的,尤其是其中的视图维护技术。由于数据仓库要维护大量的历史信息,以及高度聚集和汇总的信息。因此数据仓库需要表达能力更强的视图定义语言。 性能优化:更新报告过滤、视图自我维护、多视图优化。其目的是降低存储量,减轻数据集成到数据仓库中去的代价,从而提高系统性能。,Page 22,(5)数据挖掘(Data Mining),又译作数据开采,其前身是知识发现(KDD),属于计算机学习的范畴,也是数据库发展与人工智能技术相结合的产物。 数据挖掘是一种从大型数据库或数据仓库中提取隐藏的预测性信息的新技术,它能挖掘出数据间潜在的模式,找出最有价值的信息
19、,指导商业行为或辅助科学研究。它由以下三个成熟技术支持: 大规模数据采集 功能强大的多处理器计算机 数据挖掘算法,Page 23,数据挖掘可实现的功能,自动进行统计分析。利用统计分析来检查异常的数据模式,然后通过统计模型和数学模型解释这些数据模式,可解决市场营销、电话销售、商业管理、医疗研究和产品授权等大量的商业问题。 自动预测趋势和行为。自动在数据仓库中寻找预测性信息。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户。 自动发现以前未知的模式。搜索数据库并认定隐含着的模式。例子:通过对零售数据的分析,找出表面上互不相关却常被一起购买的商品;检测信用卡
20、诈骗交易并识别出某些不规则数据的错误。 数据挖掘过程可自动进行或只需很少人工指导 目前,商业中的数据挖掘技术主要用于市场分析、销售分析和信用分析。,Page 24,数据挖掘的主要方法和技术,数据挖掘之所以能够准确地告诉人们一些未知的事情或将要发生的事情,关键是通过建模。即在已知答案的环境中建立模型,把它应用于未知的环境。其主要过程是计算机装入各种各样的情况和答案信息,然后数据挖掘运行这些数据,精炼出其中的共性,找出其中的模型。一旦建立了这种模型,就可用此模型找出相似情况下的答案。用于建模的最常使用的方法有: 神经网络方法:它模拟人脑神经元结构,以MP模型和Hebb学习规则为基础,建立了三大类多
21、种神经网络模型。 决策树方法: 遗传学算法:模拟生物进化过程的算法。 最临近算法: 公式发现方法: 除此以外,还有覆盖正例排斥反例方法、粗集方法、概念树方法、统计分析方法、模糊论方法、以及可视化技术等等。,Page 25,(6)数据仓库决策支持新技术,传统的决策支持系统由数据库、模型库、知识库、方法库以及人机交互等几个部件组成的。通过综合利用各种数据、信息、知识、特别是模型技术,辅助各级决策者解决半结构化决策问题。将决策支持系统与专家系统结合,就形成了高级形式-智能决策支持系统。随着技术的发展,现在又出现了新的决策支持技术-数据仓库与数据挖掘相结合用于辅助决策。 数据仓库是从数据库技术发展而来
22、的、为决策服务的数据组织、存储技术。基于数据仓库的决策支持技术通过数据仓库来收集、提取、归纳、转换、过滤数据库中的大量数据,并通过快速查询可以高效的获得信息。数据挖掘则是通过对数据库、数据仓库中的数据进行分析,获得知识的一系列方法和技术。它综合了数据库技术、数据可视化和统计分析技术,在大量数据中发现有用知识,使数据、知识和决策过程成为一个有机整体。,Page 26,6、数据库技术发展各阶段综合比较,Page 27,4.1.2 电子商务时代的信息管理技术,电子商务系统中的信息需求 电子商务中的数据库技术 电子商务对数据库技术的挑战 数据库技术向Webtop的自然进化,Page 28,电子商务系统
23、中的信息与信息需求,传统的信息系统重在强化内部信息管理,而电子商务系统中需要更多地将企业内部信息投放到广泛的市场中,更多地关注市场上的需求信息、合作信息、竞争信息等诸多方面的内容。 互联网的迅速崛起,带来了解决这一问题的机会。它以及时、丰富、交互等多方面的优点,迅速成为为一种主要的信息载体,改变了传统的信息表达、交流和获取方式,使得信息发布和取得更加容易。 互联网在提供丰富知识的同时,也表现出很多问题: 互联网建立在对等的网络基础之上,每个网站都可以自主地发布信息,数据存在于海量的网站和网页里,查找起来漫无边际,获取知识的代价不断增大。 网上充斥了大量与公司业务无关的内容,很多人利用这些内容做
24、与工作无关的事情,同时,基于安全和其他方面的考虑,很多公司限制了员工对网络的访问,这实际上就切断了员工获取业务知识和竞争知识的一个很有效的途径。 互联网上的内容主要以HTML格式的形式存在,目前也出现了很多其他的格式,但这些格式是以表现为主要目的,并没有很好描述内容的内在特点,给机器的内容处理带来很大障碍。,Page 29,信息需求,信息内容更多、分布更广、形式更丰富; 信息需求:横向上需要了解更多的外部信息;纵向上需要信息的加工更精细,支持企业决策的决策信息和知识。 互动的WEB应用: 一:分享静态信息,如技术手册、论文、软件,以离线方式准备好而放到WEB服务器上的信息; 二:交互式网页:如
25、使用者可以在线填写表格,以及以表格方式显示飞机票、各种时间表等; 三:动态的文件内容:能根据使用者的要求而立刻产生文件,根据客户的需要而定制内容。 在WEB上出版静态文件很容易,但在浏览器的环境下产生有威力的互动应用则另当别论。WEB应用捕捉、管理及分享半结构式的信息,包括了文件与图形,还有象声音和影像这样重量级的资料对象。,Page 30,组织存储的组成,Page 31,结构化和非结构化的组织存储,Page 32,电子商务中的数据库技术,Page 33,电子商务系统对数据库技术的挑战,从管理的内容看,信息种类繁多,格式多样,包括了文本、图形、图像、声音、动画等大量的多媒体数据。现在一些厂商正
26、在试图使他们的产品能够管理包括非结构化信息在内的所有信息。 从数据模型看,对于多媒体数据和空间数据的管理,数据库厂商纷纷把面向对象的技术同关系数据库结合起来,采用关系对象模型。在关系模型的基础上引入对象标识、复杂数据类型、方法、封装和继承等面向对象的概念。允许用户根据应用需要自己定义数据类型、函数和操作符,而且一经定义,这些新的数据类型、函数和操作符将存放在数据库管理系统的核心,可以被所有用户使用。 从性能方面看,由于电子商务系统是每天24小时大量用户同时并发访问,因此它要求系统具有高度的可靠性,要求系统有极高的响应速度。另外,对传统的数据库应用系统,通常可以清楚地知道用户的数量,而对于Int
27、ernet上的应用,业务发展速度较快,新用户不断增加,高峰期数据处理量会很大,要求系统有很好的伸缩性。,Page 34,电子商务系统对数据库访问技术的挑战,WEB客户机与关系数据库之间接口的主要困难在于两个环境的事务模式不同。 HTTP定义的WEB中,连接时间非常短,只能够接收一个查询结果,服务器不保持任何状态信息。每一个请求都需要建立一个新的连接。 相反,在数据库环境中,在一个单独的数据库会话期间客户机可以执行多个查询,启动多个更新处理,并且有多个提交点。 实现WEB客户机与数据库之间更复杂的交互:第一种是在客户机与服务器之间保存并传递状态信息。这种方法通常通过附加状态信息到结果中,然后通过
28、CGI脚本传递返回客户机实现。每个并发的客户机请求都包括这些结果。为了保持状态信息,CGI脚本依次处理这些结果。 第二种方法是建立一个在数据库会话以及处理并发的客户机请求期间一直保持打开状态的CGI脚本。在这种模式中,为了链接并发的请求与适当的数据库会话,必须在客户机与CGI 脚本之间传递识别信息,CGI脚本还必须可以在一个特定的静止超时周期之后结束数据库会话。,Page 35,从Desktop到Webtop,数据库技术在Internet环境中的发展历程,就是PC计算越过物理边界、提供越来越多的灵活性和数据服务的发展的过程。 传统的PC计算只能在桌面上计算并且所有的数据库连同程序一起保存在本地
29、硬盘。 客户机/服务器体系结构中,更多的数据处理被转移到具有高速处理查询请求能力的后端数据库中。 当前的Web体系结构,使得用户可以从世界任何一点连接到数据库系统中。 最早的数据发布是通过HTML编辑器或站点管理软件构造并更新的没有真正的查询功能。 直到1997年,随着多个大型软件销售商的密切合作,才有效推动了包括CGI, Microsoft Web数据库技术以及Java等技术的广泛应用,并在服务器效率、站点可扩展等方面迅速地发展。,Page 36,WEB与数据库的结合,(l)Web的特点:Web上数据量大、类型多、缺乏组织和管理。 (2)数据库技术的特点:能高效、高质、安全地管理数据。 (3
30、)结合:让WEB管理者能够制作取用后端数据库的网页,而不必使用SQL语言来做数据库的查询。WEB开发者可以制作出一些如在线产品和定价目录、在线购物系统、动态文件服务、在线聊天和会议、事件注册等的数据库解决方案。使用者可以不必写HTML就可以对数据库做搜寻、新增、更新和删除等动作。 WEB数据库产品:由数据库管理系统厂商提供的网关,以将它们的数据库服务器连到WEB上;支持多种关系数据库管理系统以及其他传统资料来源的第三方厂商所提供的网关;当作WEB后端而加强功能的文字和文件数据库;加上取用WEB的前端数据库应用开发工具;加入能辨识数据库功能的WEB服务器及浏览器。 在全国第14届数据库学术会议的大会报告中,有人用一幅图来比喻数据库和Web的关系:“在Web方面,海洋比喻Web(数据海洋),远洋渔轮比喻Web Server,拖网比喻中间件,而海洋中的鱼则比喻为人们所期望的数据或信息。在数据库方面,码头鱼库比喻数据库,加工厂把海洋产品源源不断地加工成产品送往(数据)仓库。数据库、Web Server和 Web三者之间的关系,正像海产品企业、远洋捕捞业和海洋的关系一样,分则俱损,合则俱荣。”,Page 37,4.1.3 电子商务系统数据层实现概述,数据库平台实现要素分析 数据的结构化存储 数据的管理与访问 现实数据的结构化 数据的访问通道 Web信息平台实现概述,