收藏 分享(赏)

数据挖掘的概念与技术-北大.ppt

上传人:dreamzhangning 文档编号:5583825 上传时间:2019-03-08 格式:PPT 页数:88 大小:2.28MB
下载 相关 举报
数据挖掘的概念与技术-北大.ppt_第1页
第1页 / 共88页
数据挖掘的概念与技术-北大.ppt_第2页
第2页 / 共88页
数据挖掘的概念与技术-北大.ppt_第3页
第3页 / 共88页
数据挖掘的概念与技术-北大.ppt_第4页
第4页 / 共88页
数据挖掘的概念与技术-北大.ppt_第5页
第5页 / 共88页
点击查看更多>>
资源描述

1、数 据 挖 掘概念与技术,王腾蛟 北京大学计算机科学技术系 数据库与信息系统研究室 Tel: 010 62765823 Email: Cell Phone: 13661105863,引言 数据挖掘的概念与分类体系 数据挖掘的原理与方法 数据挖掘的相关国际标准 数据挖掘系统结构 数据挖掘系统设计中的若干问题 数据挖掘新技术,主要内容,大批成熟的业务信息系统投入运行 信息系统多年运行,积累了海量的数据 各类信息系统大多属于面向事务处理的OLTP系统 数据是一种宝贵的资源,但没有充分发挥作用,企业信息化发展现状,我在数据中获取知识(有益的模式),发展趋势 数据集中化 业务综合化 管理“扁平化” 决

2、策科学化 特点 以客户为中心 以服务求发展,企业信息化发展趋势,数据处理的发展趋势(需求与产品),Data Mining,Database Technology,Statistics,Other Disciplines,Information Science,Machine Learning,Visualization,数据挖掘多学科交叉的领域,引言 数据挖掘的概念与分类体系 数据挖掘的原理与方法 数据挖掘的相关国际标准 数据挖掘系统结构 数据挖掘系统设计中的若干问题 数据挖掘新技术,主要内容,什么是数据挖掘?,数据挖掘是从大量的数据中抽取出潜在的、不为人知的有用信息、模式和趋势 Jiawei

3、 Han (University of Illinois at Urbana-Champaign ) 数据挖掘不同的术语和定义: data mining, knowledge discovery, pattern discovery,数据挖掘知识发现过程(KDD)的核心,数据清理:消除噪音或不一致数据 数据集成:多种数据源可以组合在一起 数据选择:从数据库中提取与分析任务相关的数据 数据变换:数据变换或统一成适合挖掘的形式 数据挖掘:基本步骤,使用智能方法提取数据模式 模式评估:根据某种兴趣度度量,识别提供知识的真正有用的模式 知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识,数据挖掘

4、系统分类,根据挖掘的数据类型分类 根据挖掘的知识类型分类 根据所用的挖掘技术分类 根据系统的应用领域分类,关系数据库 面向对象数据库 文本数据 多媒体数据 异构数据 WWW数据,数据挖掘分类 数据类型,Data Warehouse,数据挖掘分类 知识类型,关联挖掘 序列模式挖掘 聚类挖掘 分类挖掘,孤立点挖掘 概化挖掘 预测挖掘 ,数据库技术 机器学习技术 统计技术 神经网络技术 可视化技术 ,数据挖掘分类 挖掘技术,引言 数据挖掘的概念与分类体系 数据挖掘的原理与方法 数据挖掘的相关国际标准 数据挖掘系统结构 数据挖掘系统设计中的若干问题 数据挖掘新技术,主要内容,关联挖掘 序列模式挖掘 分

5、类挖掘,聚类挖掘 孤立点挖掘 ,数据挖掘原理与方法,关联(Association),反映一个事件和其他事件之间依赖或关联的知识 如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测 可以用关联规则的形式表示 规则形式: “Body Head support, confidence”. 举例: contains(T, “computer”) contains(T, “software”) support = 1%, confidence = 75% age(X, “2029”) income(X, “2029K”) buys(X, “PC”) 2%, 60% 应用:

6、业务相关性分析、交叉销售、产品目录设计等,关联规则(一),X Y 满足X中条件的数据库元组也满足Y中条件 规则兴趣度度量 支持度 置信度 强规则 同时满足最小支持度阈值和最小置信度阈值的规则,给定: (1)交易数据库 (2)每笔交易是:一个项目列表 (消费者一次购买活动中购买的商品) 查找: 所有描述一个项目集合与其他项目集合相关性的规则 E.g., 98% of people who purchase tires and auto accessories also get automotive services done 应用 * 护理用品 (商店应该怎样提高护理用品的销售?) 家用电器 *

7、 (其他商品的库存有什么影响?) 在产品直销中使用附加邮寄,关联规则(二),规则度量:支持度与置信度,查找所有的规则 X & Y Z 具有最小支持度和可信度 支持度 s, 一次交易中包含X 、 Y 、 Z的可能性 置信度 c, 包含X 、 Y的交易中也包含Z的条件概率,设最小支持度为50%, 最小置信度为 50%, 则可得到 A C (50%, 66.6%) C A (50%, 100%),买尿布的客户,二者都买的客户,买啤酒的客户,关联规则挖掘方法,对于 A C: support = support(A 、C) = 50% confidence = support(A 、C)/support

8、(A) = 66.6%,最小支持度50% 最小置信度 50%,找出所有的频繁项集 由频繁项集产生强关联规则,关键步骤:挖掘频繁集,频繁集:是指满足最小支持度的项目集合 频繁集的子集也一定是频繁的 如, 如果AB 是频繁集,则 A B 也一定是频繁集 从1到k(k-频繁集)递归查找频繁集 用得到的频繁集生成关联规则,Apriori算法,连接: 用 Lk-1自连接得到Ck 修剪: 一个k-项集,如果他的一个k-1项集(他的子集 )不是频繁的,那他本身也不可能是频繁的。 伪代码: Ck: Candidate itemset of size k Lk : frequent itemset of siz

9、e kL1 = frequent items; for (k = 1; Lk !=; k+) do beginCk+1 = candidates generated from Lk;for each transaction t in database doincrement the count of all candidates in Ck+1 that are contained in tLk+1 = candidates in Ck+1 with min_supportend return k Lk;,Apriori算法 例子,数据库 D,扫描 D,C1,L1,L2,C2,C2,扫描 D,

10、C3,L3,扫描 D,(最小支持度为2),如何生成候选集,假定 Lk-1 中的项按顺序排列 第一步: 自连接 Lk-1 insert into Ck select p.item1, p.item2, , p.itemk-1, q.itemk-1 from Lk-1 p, Lk-1 q where p.item1=q.item1, , p.itemk-2=q.itemk-2, p.itemk-1 q.itemk-1 第二步: 修剪 forall itemsets c in Ck do forall (k-1)-subsets s of c do if (s is not in Lk-1) the

11、n delete c from Ck,生成候选集的例子,L3=abc, abd, acd, ace, bcd 自连接 : L3*L3 abc 和 abd 得到 abcd acd 和 ace 得到 acde 修剪: ade 不在 L3中,删除 acde C4=abcd,Apriori 够快了吗? 性能瓶颈,Apriori算法的核心: 用频繁的(k 1)-项集生成候选的频繁 k-项集 用数据库扫描和模式匹配计算候选集的支持度 Apriori 的瓶颈: 候选集生成 巨大的候选集: 104 个频繁1-项集要生成 107 个候选 2-项集 要找尺寸为100的频繁模式,如 a1, a2, , a100,

12、你必须先产生2100 1030 个候选集 多次扫描数据库: 如果最长的模式是n的话,则需要 (n +1 ) 次数据库扫描,关键步骤:产生关联规则,对于每个频繁项集l,产生l的所有非空子集 对于l的每个非空子集,如果 support_count(l) support_count(s)min_conf 则输出规则“ s (l-s)”,关联挖掘 序列模式挖掘 分类挖掘,聚类挖掘 孤立点挖掘 ,数据挖掘原理与方法,挖掘顺序发生的事件中的模式 给定序列数据库和最小支持度阈值,序列模式挖掘就是要找出序列数据库中所有的序列模式,序列模式挖掘(一),序列模式挖掘(二),序列模式挖掘(五) 移动用户移动模式挖掘

13、,关联挖掘 序列模式挖掘 分类挖掘,聚类挖掘 孤立点挖掘 ,数据挖掘原理与方法,找出描述或识别数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象 模型是由训练数据集(即,其类标记已知的数据对象)训练得到,分类(classification),分类的两个步骤,模型创建: 对一个类别已经确定的训练集创建模型 用于创建模型的数据集叫做训练集 每一条记录都属于一个确定的类别,使用类标签属性记录类别 模型可用分类规则、决策树或者神经网络的形式来表达 模型使用: 用创建的模型预测未来或者类别未知的记录 估计模型的准确率 使用创建的模型在一个测试集上进行预测,并将结果和实际值进行比较 测试集

14、和训练集是独立的,分类过程:模型创建,训练集,分类算法,IF rank = professor OR years 6 THEN tenured = yes,模型,分类过程 : 使用模型,模型,测试集,未知数据,(Jeff, Professor, 4),Tenured?,一 个训 练 集,一棵关于“买计算机”的决策树实例,根,内部 节点,叶子,分枝,分类挖掘实例 全国县经济状况空间分类,关联挖掘 序列模式挖掘 分类挖掘,聚类挖掘 孤立点挖掘 ,数据挖掘原理与方法,聚类(Clustering),最大化类内的相似性、最小化类间相似性的原则进行聚类或者分组,使得在一个类中的对象具有很高的相似性,而与其

15、他类中的对象很不相似 簇(Cluster):一个数据对象的集合 在同一个类中,对象之间具有相似性 不同类的对象之间是相异的 聚类分析:把一个给定的数据对象集合分成不同的簇 特点:一种无监督分类法,没有预先指定的类别,有监督和无监督学习,有监督学习 (分类) 训练集是带有类标签的 新的数据是基于训练集进行分类的 无监督学习 (聚集) 训练集是没有类标签的 提供一组属性,然后寻找出训练集中存在类别或者聚集,应用聚类分析的例子,客户划分与市场销售: 帮助市场人员发现客户中的不同群体,然后用这些知识来开展一个目标明确的市场计划; 土地使用: 在一个陆地观察数据库中标识那些土地使用相似的地区; 保险:

16、对购买了汽车保险的客户,标识那些有较高平均赔偿成本的客户; 城市规划: 根据类型、价格、地理位置等来划分不同类型的住宅;,什么是一个好的聚类方法?,一个好的聚类方法要能产生高质量的聚类结果簇,这些簇要具备以下两个特点: 高的簇内相似性 低的簇间相似性 聚类结果的好坏取决于该聚类方法采用的相似性评估方法以及该方法的具体实现; 聚类方法的好坏还取决与该方法是能发现某些还是所有的隐含模式;,聚类实现的一个方法:划分,划分方法: 将一个包含n个数据对象的数据库组织成k个划分(k=n),其中每个划分代表一个簇(Cluster)。 给定一个k,要构造出k个簇,并满足采用的划分准则: 全局最优:尽可能的列举

17、所有的划分; 启发式方法: k-平均和k-中心点算法 k-平均 (MacQueen67):由簇的中心来代表簇; k-中心点或 PAM (Partition around medoids) (Kaufman & Rousseeuw87): 每个簇由簇中的某个数据对象来代表。,K-平均算法,0,1,2,3,4,5,6,7,8,9,10,0,1,2,3,4,5,6,7,8,9,10,K=2 Arbitrarily choose K object as initial cluster center,Assign each objects to most similar center,Update th

18、e cluster means,Update the cluster means,reassign,reassign,聚类数据挖掘实例(1),关联挖掘 序列模式挖掘 分类挖掘,聚类挖掘 孤立点挖掘 ,数据挖掘原理与方法,数据库中可能包含一些数据对象,它们与数据的一般行为或模型很不一致,这些对象称作孤立点 孤立点包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等,孤立点(Outlier)挖掘,引言 数据挖掘的概念与分类体系 数据挖掘的原理与方法 数据挖掘的相关国际标准 数据挖掘系统结构 数据挖掘系统设计中的若干问题 数据挖掘新技术,主要内容,

19、数据挖掘标准化简介,模型级别 XML PMML 应用级别 XML(JAVA)SOAP,数据挖掘与标准化进程,CRISPDM 过程标准化(CRoss-Industry Standard Process for Data Mining) XML 与数据预处理相结合 SOAP(Simple Object Access Protocol ) 数据库与系统互操作的标准 PMML 预言模型交换标准,PMML:预言模型标记语言,PMML 标准的由来 什么是PMML? PMML的主要目的 PMML的内容,PMML 标准的由来,PMML 最初由NCDM开发 National Center for Data Mi

20、ning (NCDM) at the University of Illinois at Chicago (UIC) Robert Grossman 1997 Grossman,etc: The Management and Mining of Multiple Predictive Models Using the Predictive Modeling Markup Language (PMML), 1999 DMG(Data Mining Group)修正和扩充 DMG最初成员包括:Angoss, Magnify, NCDM,SPSS PMML1.0在1999年7月由DMG组织发布 DM

21、G目的是开发数据挖掘标准 目前由9个成员组成:Angoss,IBM,Magnify,NCR,Oracle,SPSS,NCDM,Xchange,MINEit 当前PMML最新版本是2.0,什么是PMML?(一),定义 PMML称为预言模型标记语言(Predictive Model Markup Language),利用XML描述和存储数据挖掘模型, 是一个已经被W3C所接受的标准。 PMML2.0 Tree Model Naive Bayes General Regression Regression Model Sequences General Structure Asscocation R

22、ules ,什么是PMML?(二),PMML的主要目的,允许应用程序和联机分析处理(OLAP)工具能从数据挖掘系统获得模型,而不用独自开发数据挖掘模块 能够收集使用大量潜在的模型,并且统一管理各种模型的集合 解决目前各数据挖掘系统之间封闭性的问题 可以在其它应用系统中间嵌入数据挖掘模型,解决孤立的知识发现问题,引言 数据挖掘的概念与分类体系 数据挖掘的原理与方法 数据挖掘的相关国际标准 数据挖掘系统结构 数据挖掘系统设计中的若干问题 数据挖掘新技术,主要内容,数据库、数据仓库、或其它信息库:数据挖掘的数据源,需要在其上进行数据清理和集成 数据库或数据仓库服务器:根据用户的数据挖掘请求,数据库或

23、数据仓库服务器负责提取相关数据 知识库:存储面向领域的知识,用于指导搜索,或评估结果模式的兴趣度 数据挖掘引擎:数据挖掘系统核心部分,由一组功能模块组成,用于特征、关联、分类、聚类分析、演变和偏差分析等,数据挖掘系统体系结构,模式评估模块: 使用兴趣度度量,与挖掘模块交互,以便将搜索聚焦在有趣的模式上 可能使用兴趣度阈值过滤发现的模式 模式评估模块也可以与挖掘模块集成在一起,这依赖于所用的数据挖掘方法的实现 对于有效的数据挖掘,建议尽可能地将模式评估推进到挖掘过程之中,以便将搜索限制在有兴趣的模式上,数据挖掘系统体系结构(续一),图形用户界面: 该模块在用户和挖掘系统之间通讯 允许用户与系统交

24、互,指定数据挖掘查询或任务,提供信息、帮助搜索聚焦,根据数据挖掘的中间结果进行探索式数据挖掘。 允许用户浏览数据库和数据仓库模式或数据结构,评估挖掘的模式,以不同的形式对模式可视化,数据挖掘系统体系结构(续二),引言 数据挖掘的概念与分类体系 数据挖掘的原理与方法 数据挖掘的相关国际标准 数据挖掘系统结构 数据挖掘系统设计中的若干问题 数据挖掘新技术,主要内容,数据挖掘系统设计中的若干问题,挖掘方法与用户交互问题 如何设计覆盖广谱的数据分析和知识发现任务 多个抽象层的交互知识挖掘 如何纳入领域知识 数据挖掘系统的性能问题 算法的有效性和可伸缩性 并行、分布和增量挖掘算法与体系,挖掘方法与用户交

25、互问题,不同的用户可能对不同类型的知识感兴趣 数据挖掘系统应当覆盖广谱的数据分析和知识发现任务,包括数据特征、区分、关联、聚类、趋势、偏差分析和类似性分析等 这些任务可能以不同的方式使用相同的数据库 避免开发单一的挖掘应用,需设计良好的系统可扩展性,多个抽象层的交互知识挖掘问题,由于很难准确地知道能够在数据库中发现什么,数据挖掘过程应当是交互的 对于包含大量数据的数据库,应当使用适当的选样技术,进行交互式数据探查 交互式挖掘允许用户聚焦搜索模式,根据返回的结果提出和精炼数据挖掘请求 特殊地,类似于立方体上的OLAP操作,应当通过交互地在数据空间和知识空间下钻、上卷和转轴,挖掘知识。用这种方法,

26、用户可以与数据挖掘系统交互,以不同的粒度和从不同的角度观察数据和发现模式,纳入领域知识的问题,结合背景知识:可以使用背景知识或关于所研究领域的信息来指导发现过程,并使得发现的模式以简洁的形式,在不同的抽象层表示 关于数据库的领域知识,如完整性限制和演绎规则,可以帮助聚焦和加快数据挖掘过程,或评估发现的模式的兴趣度,挖掘结果的表示问题,发现的知识应当用高级语言、可视化表示形式、或其它表示形式表示,使得知识易于理解,能够直接被人使用 如果数据挖掘系统是交互的,这一点尤为重要 要求系统采用有表达能力的知识表示技术,如树、表、图、图表、交叉表、矩阵或曲线,处理噪音和不完全数据问题,存放在数据库中数据可

27、能反映噪音、例外情况、或不完全的数据对象 这些对象可能搞乱分析过程,导致数据与所构造的知识模型过分适应 其结果是,所发现的模式的精确性可能很差。 需要处理数据噪音的数据清理方法和数据分析方法,以及发现和分析例外情况的孤立点挖掘方法,模式评估兴趣度问题,数据挖掘系统可能发现数以千计的模式 对于给定的用户,许多模式不是有益的,它们表示平凡知识或缺乏新颖性 使用兴趣度度量,指导发现过程和压缩搜索空间,是有效筛选有益模式的方法,算法的有效性和可伸缩性问题,为了有效地从数据库中大量数据提取信息,数据挖掘算法必须是有效的和可伸缩的 对于大型数据库,数据挖掘算法的运行时间必须是可预计的和可接受的 从数据库角

28、度,有效性和可伸缩性是数据挖掘系统实现的关键问题 上面讨论的挖掘技术和用户交互的大多数问题,也必须考虑有效性和可伸缩性,引言 数据挖掘的概念与分类体系 数据挖掘的原理与方法 数据挖掘的相关国际标准 数据挖掘系统结构 数据挖掘系统设计中的若干问题 数据挖掘新技术,主要内容,数据挖掘新技术,数据流挖掘技术 基于数据立方体的挖掘 时空数据挖掘技术 移动对象挖掘技术 Web挖掘技术 ,数据流问题的提出,电信领域:电话呼叫记录分析、网络管理数据分析 金融领域:信用卡交易分析、证券交易分析 网络监测和流量控制 Web日志与点击流分析 能源供给部门的能源供给分析 天气预报、地震预测 传感网络监控 ,数据流的

29、定义与特点,数据流:以顺序(ordered)、快速、随时间变化、可能无法预测并且数量巨大的流的形式连续到达的数据序列: 特点 大量、连续到达的数据,可能无限 快速变化,需要快速、实时响应 单次线性扫描算法,随机访问代价太高 只能存储数据的汇总或提纲(synopsis) 低层次、多维数据,需要多层次、多维处理,数据流研究中的主要问题,数据流查询技术 当前焦点,主要是连续查询(continuous query) 查询语言、查询计划、近似查询回答技术等 数据流分析技术 传统的统计分析,已比较成熟 结合数据仓库与OLAP技术的多维多层次分析 数据流挖掘 数据流管理系统 查询处理、资源管理、存储实现等,

30、DBMS与DSMS的比较,数据流处理的挑战,多个、连续、快速、时变、有序的数据流 主存计算 查询经常是连续的 数据到来时的连续估计 随时间更新的查询结果 查询经常是复杂的 超越了“一次一成员”(element-at-a-time)的处理方式 超越了“一次个流”(stream-at-a-time)的处理方式 超越了关系查询(科学数据库、数据挖掘、OLAP) 多层次/多维处理和数据挖掘 绝大多数流数据是相当低层的、多维的,数据挖掘新技术,数据流挖掘技术 基于数据立方体的挖掘 时空数据挖掘技术 移动对象挖掘技术 Web挖掘技术 ,根据用户的交互,系统自动完成用户的OLAP分析需求,根据用户的交互,系

31、统自动调整挖掘角度和策略,基于数据立方体的挖掘 用户期望什么?,如何使分析更简单、更高效?,DSS的分析工具,OLAP,Data Mining,既有用户的参与 又有系统的自动发现,两者的无缝联接与融合 提供功能更强、操作更方便的分析,分析更简单 更高效,假定驱动与发现驱动,假定驱动的探查(hypothesis-driven exploration) 用户通过使用下钻、上卷、切片、切块等OLAP操作,检索方中感兴趣的模式 尽管这些工具可以用于帮助用户探查数据,但这一过程不是自动的 用户根据他的直观和假定,试图去识别数据中的例外和异常 缺点:搜索空间非常大,容易忽略有益的模式 发现驱动的探查(di

32、scovery-driven exploration) 将挖掘引入立方体,集成的OLAM和OLAP结构,数据挖掘新技术,数据流挖掘技术 基于数据立方体的挖掘 时空数据挖掘技术 移动对象挖掘技术 Web挖掘技术 ,时空数据挖掘,时空数据挖掘是一种非平凡的从大型时空数据库中进行隐含的、潜在有用的、新颖的隐式或显式知识内容的抽取过程 特点 包含时间,空间和常规的数据维 数据随时间增长,海量数据 难度 没有统一的数据模型和查询语言 底层索引建立困难 缺少成熟的数据挖掘方法,空间关联: 包含空间谓词的关联关系 空间谓词: close_to, intersect, contains, etc. Topol

33、ogical relations: intersects, overlaps, disjoint, etc. Spatial orientations: left_of, west_of, under, etc. Distance information: close_to, within_distance, etc. 空间关系的层次: “g_close_to”: near_by, touch, intersect, contain, etc. First search for rough relationship and then refine it.,空间关联挖掘,挖掘结果: is_a(x

34、, large_town) intersect(x, highway) adjacent_to(x, water). 7%, 85% is_a(x, large_town) adjacent_to(x, georgia_strait) close_to(x, u.s.a.). 1%, 78% 挖掘方法:multi-level, multi-dimensional association + geo-spatial algorithms (from rough to high precision: multi-resolution, multi-granularity) + constraints (constraint-based mining)+ Apriori .,空间关联规则挖掘实例,空间数据挖掘实例 天津市民出行特征聚类挖掘,谢 谢 !,王腾蛟 北京大学计算机科学技术系 数据库与信息系统研究室 Tel: 010 62765823 Email: Cell Phone: 13661105863,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 社会民生

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报