1、数据挖掘技术与应用,陈燕教授,第2章 数据采集集成与预处理技术,大连海事大学,本章提纲,2.1 数据采集的对象,1.时序数据随着计算机技术和大容量存储技术的发展以及多种数据获取技术的广泛应用,人们在日常事务处理和科学研究中积累了大量数据。被保存的数据绝大部分都是呈现时间序列类型的数据。所谓时间序列类型数据就是按照时间先后顺序排列各个观测记录的数据集。,2.1 数据采集的对象,时间序列在社会生活的各个领域都广泛的存在,如金融证券市场中每天的股票价格变化;商业零售行业中某项商品每天的销售额;气象预报研究中某一地区的每天气温与气压的读数;以及在生物医学中某一症状病人在每个时刻的心跳变化等等。不仅如此
2、,时间序列也是反映事物运动、发展、变化的一种最常见的图形化描述方式。,2.1 数据采集的对象,2.Web数据 Web挖掘与传统的数据挖掘相比有许多独特之处: Web挖掘的对象是大量异质分布的Web文档。 Web在逻辑上是一个由文档节点和超链接构成的图,因此Web挖掘所得到的模式可能是关于Web内容的,也可能是关于Web结构的。 由于Web文档本身是半结构化或无结构的且缺乏机器可理解的语义,而传统数据挖掘的对象局限于数据库中的结构化数据并利用关系表格等存储结构来发现知识,因此有些数据挖掘技术并不适用于Web挖掘。即使可用也需要建立在对Web文档进行预处理的基础之上。,2.1 数据采集的对象,2.
3、Web数据 Web挖掘可分为三类: Web内容挖掘:是从文档内容或其描述中抽取知识的过程。 Web结构挖掘:是从WWW的组织结构和链接关系中推导知识的过程。 用户访问模式挖掘。,2.1 数据采集的对象,3.多媒体数据多媒体数据挖掘(Multimedia Data Mining, MDM)是目前国际上数据库、多媒体技术和信息决策领域最前沿的研究方向之一,是数据挖掘的一个新兴且富有挑战性的领域。,2.1 数据采集的对象,多媒体数据挖掘系统的原型结构如下图所示,2.1 数据采集的对象,多媒体数据挖掘系统的三个主要阶段:数据准备 多媒体数据知识挖掘 知识表示与解释,2.1 数据采集的对象,4.空间数据
4、空间数据挖掘(Spatial Data Mining, SDM)是指从空间数据库中提取出用户感兴趣的空间模式与特征、空间与非空间数据的普遍关系及其他的一些隐含在数据库中的普遍的数据特征。,2.1 数据采集的对象,从空间数据库中能够挖掘到的知识类型主要有如下几种: 一般几何知识 空间分布规律 空间关联规则 空间分类(聚类)规则 空间特征规则 空间区分规则 空间演变规则 面向对象的知识,2.2 数据集成技术与方法,数据集成是将多个数据源中的数据(如数据库、数据立方体或一般文件)结合起来存放到一个一致的数据存储(如数据仓库)中的一种技术和过程。,2.2 数据集成技术与方法,集成的信息系统要解决的问题
5、,反映到数据及程序方面,具体要求为:数据能有多种方式被录入,且易被获取; 数据面向所有程序被使用、处理、存贮与更新; 所有软件可以被入网的个人计算机调用运行并能协调工作; 用户与系统之间的交互界面直观; 数据集成机制贯穿于系统,且这些机制实现尽可能是无缝的。,2.2 数据集成技术与方法,2.2.1 3G与MIS的集成模式,2.2.2 异构数据集成的设计与实现,2.2.1 3G与MIS的集成模式,目前,越来越多的运输企业都看到了信息系统对提升管理效率和运输效率的作用,并建立了多种信息系统,如GPS、GIS和管理信息系统(Management Information System, MIS),但由
6、于各类系统有各自的管理和运行模式,其信息交换能力非常薄弱,更谈不上与相关企业实现信息的共享,因此,交通运输业的发展越来越依赖于包括各种管理和基于网络通讯在内的一个可交换和共享的集成管理信息系统。,2.2.1 3G与MIS的集成模式,GPS/GIS与MIS的集成模式如下图所示:,2.2.1 3G与MIS的集成模式,GPS/GIS技术与MIS管理技术的集成主要体现在:实现了配送作业的可视化管理,对于配送调度决策具有重大意义; 通信技术与运输管理技术的有效集成,实现了运输管理的动态调度和指挥; GPS技术和GSM的集成技术与运输管理技术的有效集成,实现了移动目标的实时监控。通过这种集成模式,系统实现
7、了GPS/GIS监控系统与MIS系统的嵌入式集成,使得系统非常容易进行数据共享。,2.2.2 异构数据集成的设计与实现,通过一个实例,说明如何利用异构数据整合平台实现数据的集成与交换过程。,2.2.2 异构数据集成的设计与实现,首先,确定源数据和目标数据,下图为数据整合初始界面。,2.2.2 异构数据集成的设计与实现,在“原属性”和“目标属性”框中分别输入源数据与目标数据中要进行替换或整合的字段名,如果确认进行无条件替换,可以选中“无条件替换”单选按钮,然后点击“替换”按钮。替换过后,可以点击“显示目标数据”按钮,查看目标数据。 如果确认进行有条件替换,可以选中“有条件替换”单选按钮,此时需要
8、在“属性值”框中填写原属性的属性值,在“替换为”框中填写目标属性值,然后点击“替换”按钮。替换完成后,可以点击“显示目标数据”按钮,查看目标数据。 采用同样的方法,可以继续对其他属性进行替换。,2.3 数据预处理技术与方法,数据预处理流程如图所示,2.3 数据预处理技术与方法,2.3.1 数据清理的方法,2.3.2 数据融合的方法,2.3.3 数据变换的方法,2.3.4 数据归约的方法,2.3.1 数据清理的方法,数据清理是数据准备过程中最花费时间、最乏味的,但也是最重要的一步 。初始获得的数据主要有以下几种情况需要处理:含噪声数据 错误数据 缺失数据 冗余数据,2.3.2 数据融合的方法,数
9、据融合,即把数据融合的思想引入到数据预处理的过程中,加入数据的智能化合成,产生比单一信息源更准确、更完全、更可靠的数据进行估计和判断,然后存入到数据仓库或数据挖掘模块中。 常见的数据融合方法见下表,2.3.3 数据变换的方法,数据变换是采用线性或非线性的数学变换方法将多维数据压缩成较少维数的数据,消除它们在时间、空间、属性及精度等特征表现方面的差异。 常见数据变换方法见下表。常用的规范化方法有最小-最大规范化、Z-score规范化(零-均值规范化)、小数定标规范化等。应用主成分分析方法计算模型中的数据变换矩阵的方法。,2.3.4 数据归约的方法,数据规约就是在减少数据存储空间的同时尽可能保证数
10、据的完整性,获得比原始数据小得多的数据,将数据以合乎要求的方式表示。常见的数据归约方法见下表,2.4 基于样本数据划分的通用数据挖掘模型系统,复杂的数据具有多维、异构、不确定等特点。为解决该问题,需要对数据挖掘系统中的数据进行细致的分析后,发现影响运行的主要因素。 但是在数据挖掘前,数据的类别不清楚,需要花费大量的搜索时间来判别样本数据属于哪种模型,需要经过怎样的数据预处理操作。 引入通用数据挖掘模型的意义主要在于:将复杂类型的物流信息在挖掘前变成中性数据,大大提高了数据挖掘模型的运行速度。,2.4 基于样本数据划分的通用数据挖掘模型系统,基于样本数据划分的通用数据挖掘模型系统如图所示,2.4
11、 基于样本数据划分的通用数据挖掘模型系统,将样本数据分为三类:完备的样本数据的数据挖掘模型 不完备的样本数据的数据挖掘模型 混合类型数据的数据挖掘模型,2.5 中间件技术,2.5.1 中间件技术的定义与作用,2.5.2 中间件技术在数据仓库系统中数据采集的应用,2.5.1 中间件技术的定义与作用,1. 中间件(Middleware)的定义、特点与解释目前还没有一个确切的中间件的定义,但是根据诸多中间件的应用实例,大多数专家们将中间件定义为:中间件是一种独立的系统软件或服务程序,分布式应用软件借助这种软件在不同的技术之间共享资源。,2.5.1 中间件技术的定义与作用,中间件的主要特点包括: 满足
12、大量的、多用途应用的需要; 运行于多种硬件和多操作系统的公共平台; 支持分布式计算,提供跨网络、硬件和OS平台的透明性的应用或服务的交互功能; 中间件往往介于数据仓库系统中间层; 支持标准的协议和标准的接口。,2.5.1 中间件技术的定义与作用,通用中间件类型包括: 企业服务总线(Enterprise Service Bus, ESB) 分布式计算环境中间件 事务处理(Transaction Processing, TP)中间件 远程过程调用(Remote Procedure Call, RPC)中间件 面向对象请求代理(Object Request Broker, ORB)中间件 数据库访问
13、中间件(Database Access Middleware, DCM) 面向消息中间件(Message-Oriented Middleware, MOM) 基于XML 的中间件(XML-Based Middleware),2.5.1 中间件技术的定义与作用,中间件未来发展趋势将朝着如下目标发展: 规范化 构件化和松耦合 平台化,2.5.1 中间件技术的定义与作用,2. 基于数据仓库系统的中间件目前作为数据仓库的中间件有: 数据采集系统中的中间件 数据仓库系统的中间件 基于数据仓库决策系统的中间件,2.5.2 中间件技术在数据仓库系统中数据采集的应用,云南航务海事综合管理系统的研究项目为例。
14、1. 系统的建设体系第一 数据层建设层面 第二 业务系统建设层面 第三 综合平台建设层面 第四 门户网站建设层面,2.5.2 中间件技术在数据仓库系统中数据采集的应用,系统的建设体系,2.5.2 中间件技术在数据仓库系统中数据采集的应用,系统整体结构,2.5.2 中间件技术在数据仓库系统中数据采集的应用,具体中间件有: 在数据层建设层面上的中间件即数据整合系统中间件。 由于业务系统建设层面的所有业务管理数据库的数据都来源于其底层的数据整合系统,因此,本层面的中间件仍然是数据采集系统中间件。 由于航务海事综合平台层面的每个子平台都是多系统和跨系统的公共机制平台,所以在其中的各个系统在业务流程的定
15、制与自定义过程中存在中间件技术,具有代表的是协同办公平台。 在门户网站建设层面上的中间件有:消息的传递、电子邮件的传输、数据文件的传输等。,2.5.2 中间件技术在数据仓库系统中数据采集的应用,2. 基于数据整合系统的中间件应用 数据整合系统的中间件应用如图所示:,2.5.2 中间件技术在数据仓库系统中数据采集的应用,航务海事综合平台资源整合的结构,2.5.2 中间件技术在数据仓库系统中数据采集的应用,单点登陆实现机制,2.5.2 中间件技术在数据仓库系统中数据采集的应用,数据整合结构如图所示:,2.5.2 中间件技术在数据仓库系统中数据采集的应用,数据交换机制如图所示 :,2.5.2 中间件
16、技术在数据仓库系统中数据采集的应用,协同办公机制如图所示:,2.5.2 中间件技术在数据仓库系统中数据采集的应用,其中的业务工作处理实现机理如图所示:,2.5.2 中间件技术在数据仓库系统中数据采集的应用,实现组件如图所示:,2.5.2 中间件技术在数据仓库系统中数据采集的应用,其中的过程监控预期效果如图所示:,2.5.2 中间件技术在数据仓库系统中数据采集的应用,实现结构例子如图所示:,2.6 小结,本章重点研究数据采集、集成技术和数据预处理方法。由于数据采集的数据对象种类和数据源复杂,对于时间序列、Web数据、多媒体数据和空间数据这四类特殊种类的数据采集需求做出重点阐述。 在数据集成技术方面主要介绍了3G与MIS的集成技术、异构数据的集成和集成系统开发技术。 数据预处理主要有数据清理、数据融合、数据变换和数据归约操作。 重点研究基于样本数据划分的通用数据挖掘模型系统。 最后介绍基于数据仓库系统中数据采集系统中的中间件技术的应用实例。,本章内容结束!,