1、数据挖掘,数据挖掘定义,数据挖掘(Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(KDD)中的一个重要的步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。,数据挖掘来源,数据挖掘利用了来自如下一些领域的思想:来自统计学的抽样、估计和假设检验 人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。 最优化、进化计算、信息论、信号处理、可视化和信息检索。 需要数据库系统提供有效的存储、索引和查询处理支持。源于
2、高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。,典型数据挖掘系统的结构,一个数据挖掘系统原型,数据挖掘过程,数据挖掘过程分为数据准备、模式发现、结果表达和解释三个主要阶段,数据挖掘完整步骤, 理解数据和数据的来源(understanding)。 获取相关知识与技术(acquisition)。 整合与检查数据(integration and checking)。 去除错误或不一致的数据(data cleaning)。 建立模型和假设(model and hypothesis development)。 实际数
3、据挖掘工作(data mining)。 测试和验证挖掘结果(testing and verification)。 解释和应用(interpretation and use)。由上述步骤可看出,数据挖掘牵涉了大量的准备工作与规划工作,事实上许多专家都认为整套数据挖掘的过程中,有80%的时间和精力是花费在数据预处理阶段,其中包括数据的净化、数据格式转换、变量整合,以及数据表的链接。可见,在进行数据挖掘技术的分析之前,还有许多准备工作要完成。,数据挖掘的10大分析方法,1.C4.5算法。ID3算法的扩展,能够产生用决策树表示的分类器,还可通过更易理解的规则集形式来表示分类器。2.Kmeans算法。一
4、种简单的迭代算法,能将给定的数据集划分为用户定义的聚簇数目。3.SVM支持向量机。提供了一种稳定准确的方法。它拥有强大的理论基础,只需少数示例进行训练,且对数据集维度数量不敏感。4.Apriori算法。 最流行的数据挖掘方法之一。就是从交易数据集中寻找频繁项集,并且产生关联规则。5.EM算法。有限混合分布提供一种灵活的,基于数学的建模和聚类数据集方法。6.PageRank算法。一种使用互联网上的超链接的搜索排序算法。7.AdaBoost。集成学习是应用多个学习器来解决问题。它是最重要的集成学习算法之一,它拥有牢固的理论基础,预测非常准确,并且简单和易于实现。8.KNN分类算法。通过在数据集中寻
5、找与测试对象最近的k个对象。并且,预先定义类别标签。9.朴素贝叶斯。10.CART。包括分类树和回归树两部分。,大数据挖掘常用方法,(1)分类。分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到摸个给定的类别中。可以应用到涉及到应用分类、趋势预测中。(2)回归分析。回归分析反映了数据库中数据的属性值的特性,通过函数表达数据映射的关系来发现属性值之间的依赖关系。它可以应用到对数据序列的预测及相关关系的研究中去。(3)聚类。聚类类似于分类,但与分类的目的不同,是针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据
6、间的相似性很大,但不同类别之间数据的相似性很小,跨类的数据关联性很低。(4)关联规则。关联规则是隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现。关联规则的挖掘过程主要包括两个阶段:第一阶段为从海量原始数据中找出所有的高频项目组;第二极端为从这些高频项目组产生关联规则。(5)神经网络方法。神经网络作为一种先进的人工智能技术,因其自身自行处理、分布存储和高度容错等特性非常适合处理非线性的以及那些以模糊、不完整、不严密的知识或数据为特征的处理问题,它的这一特点十分适合解决数据挖掘的问题。(6)Web数据挖掘。Web数据挖掘是一项综合性技术,指Web 从文档结构和使
7、用的集合C 中发现隐含的模式P,如果将C看做是输入,P 看做是输出,那么Web 挖掘过程就可以看做是从输入到输出的一个映射过程。,数据挖掘分类,直接数据挖掘 目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述。 分类、估值、预言属于直接数据挖掘间接数据挖掘 目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系 。 关联规则、神经网络方法、Web 数据挖掘属于间接数据挖掘。,交通数据挖掘,数据挖掘技术交通系统的各种实时交通模型和综合交通模型,可以提供交通管理决策支持信息,用于交通的管理和控制,改善智能交通
8、系统的服务水平。智能交通的数据挖掘在大量交通信息中发现有价值的模式,以数据驱动的方式分析交通系统的交通状况,建立智能交通系统的分析、评价及预测模型。,交通数据特点,智能交通系统的交通数据来源广泛、形式多样,包括动态的交通流数据和智能交通子系统的管理控制数据,以及静态的道路环境数据等。智能交通系统管理和控制的对象是交通流,交通流数据是按时间顺序采样得到的一系列数值型数据序列,是交通系统中最重要的数据。智能交通系统记录了大量交通信息,如电子警察系统将交通违法车辆的违法行为过程用图像和数据记录下来,提供交通违法信息,包括车辆违法地点、违法日期、违法时间、违法类型、违法参数、违法车辆全景图像序列、违法
9、车辆牌照图像;交通事故接处警系统提供报警时间、报警地点、报警电话号码以及相关的交通事故信息:交通信号控制系统提供与路口有关的运行状态、色步递进信息等。,交通数据挖掘的系统模型,ETL及数据预处理为交通信息的模式发现提供一个干净、一致、集成、归约(reduction)的数据集一交通信息数据仓库。数据挖掘任务管理在数据挖掘算法集中选择完成挖掘任务的算法,在交通数据仓库中选择挖掘算法应用的数据,执行相应的挖掘操作,将挖掘得到的模式保存到交通信息模式库。模型分析管理是交通数据挖掘系统与其他智能交通系统的应用接口,并接收应用系统的反馈信息对交通信息模型库的模式进行解释与评价。,交通数据集成,交通数据种类
10、繁多,分布在各种智能交通应用系统中,具有异构、层次的特点,交通数据挖掘需要将各种交通数据从操作数据库中抽取出来,经过清洗、转换、装载等一系列处理,集成到一个统一的本地交通信息数据仓库。数据仓库为数据挖掘提供有效的数据处理平台,许多数据挖掘功能,如分类、关联、聚类等,都可以与各种粒度的多维数据分析OLAP操作集成,在多个抽象层上交互数据挖掘。,多层体系结构,交通数据挖掘系统的系统模型提供了一个多层的应用体系结构,将数据挖掘功能的实现分为应用层、分析逻辑层、算法工具层和数据层。多层体系结构能够在跨平台、网络环境下应用,应用系统可根据需要采用灵活的方式,如B/S、C/S等。 应用层是用户调用分析逻辑
11、所设立的分析功能的入口。 分析逻辑层则表现了应用系统的分析能力。 算法工具层集中了交通流分析需要的算法及相关计算工具,如挖掘各种模型的数据挖掘算法、统计方法、相似性度量方法等,是各个独立的算法工具的集合。在交通数据挖掘中,分析功能的抽取及响应、数据挖掘算法的选取、设计是一个难题,需要交通系统的利用知识和数据挖掘技术的紧密结合。,常用的交通数据挖掘模型,1.预测模型交通预测包含多个层次:基础数据层的交通流数据的预测:基于特征属性层的交通流性质预测、交通事件及事件类型预测、道路拥堵情况预测;基于状态描述层的路网服务水平、事态发展预测和事件影响评估等。在智能交通系统中,识别和预测交通流的状态可以对交
12、通流进行有效的监控和管理,对于智能交通系统的实时交通信号控制,交通分配、路径诱导、自动导航,事故检测等具有非常重要的意义。目前,基础数据层的交通流量预测已取得了很多研究成果,如ARIMA、神经网络、非参数回归模型。在特征属性层和状态描述层反映交通系统发展变化的阶段、层次、水平或趋势等的预测模型还需要更进一步的研究。,常用的交通数据挖掘模型,2.分类模型分类模型在数据挖掘中应用领域非常广泛的数据模型。分类是根据数据集的特点构造一个分类器,利用分类器对未知类别的对象赋予类别的一种技术。假设交通流数据集R,交通流分类特征P=p1,p2,.,pk),建立R到P的映射f:RP使R中的每一个交通流对象与P
13、中唯一一个pi对应,则f称为交通流数据的分类模型,或简称分类器。分类模型的建立有训练(或学习)和测试两个步骤。在训练阶段,通过分析或学习训练数据集的特点创建一个分类模型;在测试阶段,利用测试数据集对创建的分类模型进行测试,判断模型的分类准确度。若准确度达到要求,则模型建立成功,分类模型用来对类标号未知的数据无组或对象进行分类。交通流可以有不同的分类特征P,因此交通流分类模型的建立也需选择不同的相关属性,删除训练过程中与分类任务不相关的属性。不同的分类算法也会建立不同的交通流数据分类模型,已有研究利用神经网络的方法和模糊逻辑的方法建立了交通流数据的分类模型。模糊逻辑的方法可以得到一组容易理解的如
14、ifthen的分类规则;而采用神经网络方法进行训练,得到的是一个优化的神经网络模型,它可以对新的数据进行分类,但其分类规则是不可理解的。,常用的交通数据挖掘模型,3.关联模型 关联规则是形如的模式,一般用支持度和置信度两个指标来描述一个关联规则。关联规则可以发现数据项之间的相关联系。交通流信息是时间相关和空间相关的,具有时空特性,例如,流量数据只有在与一定的时刻及路口相联系时才有意义。空间数据是主要指数字地图、遥感数据、医学图象、交通控制、环境等领域大量出现的与空间有关的数据,包含的空间信息有距离、拓扑结构等。时空数据的数据挖掘模型包括时空元规则、时空范化、时空聚类和关联、演化规则等,空间关联
15、规则是根据空间谓词而不是根据项来定义的。智能交通信息时空规则的挖掘对智能交通系统的预测具有重要的应用价值,例如,时空关联规则:”在T1到T2时间段内高速路X的A站点的交通事故在T2+2到T2+3时间段内高速路Y的B站点有不寻常的高交通流量。”,大数据与数据挖掘,在大数据时代,数据挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。其主要基于人工智能,机器学习,模式学习,统计学等。通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的模式,可以帮助企业、商家、用户调整市场政策、减少风险、理性面对市场,并做出正确的决策。智能交通的数据挖掘在大量交通信息中发现有价值的模式,以数据驱动的方式分析交通系统的交通状况,建立智能交通系统的分析、评价及预测模型。用于智能交通系统的实时交通控制,提供交通管理决策支持信息,可以改善智能交通系统的管理和控制水平。,谢谢大家!,