1、数据仓库与数据挖掘,主讲教师:王浩畅 E-mail: wanghch_ School of Computer & Information Technology of NEPU,教科书和参考书,教科书 数据挖掘:概念与技术,Jiawei Han和Micheline Kamber 著,机械工业出版社(2008) 参考书 J. Han and M. Kamber. Data Mining: Concepts and Techniques. 2nd ed. 机械工业出版社 2006 P.-N. Tan, M. Steinbach and V. Kumar, Introduction to Data M
2、ining. 人民邮电出版社 2005 I. H. Witten and E. Frank, Data Mining: Practical Machine Learning Tools and Techniques 2nd ed.机械工业出版社 2005,课堂要求,必须在打预备铃前到教室,不得迟到、早退、旷课。迟到一次平时成绩扣5分,旷课一次平时成绩扣10分 上课时必须关闭手机,严禁在上课时间打电话、短信聊天。对扰乱课堂纪律的学生将责令退出课堂,并以旷课论处。 缺课超过1/3不能参加考试 期末成绩=平时成绩占10%+实验成绩占10%+考试成绩占80%,第1章 引言,数据挖掘的发展动力(1),需
3、要是发明之母 数据爆炸问题 自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。 我们拥有丰富的数据,但却缺乏有用的信息 解决方法:数据仓库技术和数据挖掘技术 数据仓库(Data Warehouse)和在线分析处理(OLAP) 数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束),数据挖掘的发展动力(2),数据库技术的演化 1960s和以前: 文件系统 1970s: 层次数据库和网状数据库 1980s早期: 关系数据模型, 关系数据库管理系统(RDBMS)的实现,数据挖掘的发展动力(3),1980s晚期: 各种高级数据库系统(扩展
4、的关系数据库,面向对象数据库等等.) 面向应用的数据库系统 (空间数据库,时序数据库,多媒体数据库等等) 1990s: 数据挖掘, 数据仓库, 多媒体数据库和网络数据库 2000s 流数据管理和挖掘 基于各种应用的数据挖掘 XML数据库和整合的信息系统,第1章 引言,什么是数据挖掘?(1),数据挖掘 (从数据中发现知识) 从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识 挖掘的不仅仅是数据(所以“数据挖掘”并非一个精确的用词) 数据挖掘的替换词 数据库中的知识挖掘(KDD)知识提炼、数据/模式分析 数据考古 数据捕捞、信息收获等等。 并非所有东西都是“数据挖
5、掘” 查询处理. 专家系统或是小型的数学计算/统计程序,什么是数据挖掘?(2),数据挖掘的应用 数据分析和决策支持 市场分析和管理 目标市场, 客户关系管理 (CRM), 市场占有量分析, 交叉销售, 市场分割 风险分析和管理 风险预测, 客户保持, 保险业的改良, 质量控制, 竞争分析 欺骗检测和异常模式的监测 (孤立点) 其他的应用 文本挖掘 (新闻组,电子邮件, 文档) 和WEB挖掘 流数据挖掘 DNA 和生物数据分析 等等。,什么是数据挖掘?(3),数据挖掘应用市场分析和管理(1) 数据从那里来? 信用卡交易, 会员卡, 商家的优惠卷, 消费者投诉电话, 公众生活方式研究 目标市场 构
6、建一系列的“客户群模型”,这些顾客具有相同特征: 兴趣爱好, 收入水平, 消费习惯,等等 确定顾客的购买模式 交叉市场分析 货物销售之间的相互联系和相关性,以及基于这种联系上的预测,什么是数据挖掘?(4),数据挖掘应用市场分析和管理(2) 顾客分析 哪类顾客购买那种商品 (聚类分析或分类预测) 客户需求分析 确定适合不同顾客的最佳商品 预测何种因素能够吸引新顾客 提供概要信息 多维度的综合报告 统计概要信息 (数据的集中趋势和变化),什么是数据挖掘?(5),数据挖掘应用公司分析和风险管理 财务计划 现金流转分析和预测 交叉区域分析和时间序列分析(财务资金比率,趋势分析等等) 资源计划 总结和比
7、较资源和花费 竞争 对竞争者和市场趋势的监控 将顾客按等级分组和基于等级的定价过程 将定价策略应用于竞争更激烈的市场中,什么是数据挖掘?(6),数据挖掘应用欺诈行为检测和异常模式的发现 (1) 方法: 对欺骗行为进行聚类和建模,并进行孤立点分析 应用: 卫生保健、零售业、信用卡服务、电信等 汽车保险: 相撞事件的分析 洗钱: 发现可疑的货币交易行为 医疗保险 职业病人, 医生以及相关数据分析 不必要的或相关的测试,什么是数据挖掘?(7),数据挖掘应用欺诈行为检测和异常模式的发现 (2) 电信: 电话呼叫欺骗行为 电话呼叫模型: 呼叫目的地,持续时间,日或周呼叫次数. 分析该模型发现与期待标准的
8、偏差 零售产业 分析师估计有38的零售额下降是由于雇员的不诚实行为造成的 反恐怖主义,什么是数据挖掘?(8),其他应用 体育竞赛 美国NBA的29个球队中,有25个球队使用了IBM 分析机构的数据挖掘工具,通过分析每个对手的数据(盖帽、助攻、犯规等数据)来获得比赛时的对抗优势。 天文学 JPL实验室和Palomar天文台就曾经在数据挖掘工具的帮助下发现了22颗新的恒星 网上冲浪 通过将数据挖掘算法应用于网络访问日志,从与市场相关的网页中发现消费者的偏爱和行为, 分析网络行销的有效性,改善网络站点组织。这就是新兴的WEB挖掘研究,数据挖掘: 数据库中的知识挖掘(KDD),数据挖掘知识挖掘的核心,
9、数据清理,数据集成,数据库,数据仓库,Knowledge,任务相关数据,选择,数据挖掘,模式评估,什么是数据挖掘?(9),知识挖掘的步骤 了解应用领域 了解相关的知识和应用的目标 创建目标数据集: 选择数据 数据清理和预处理: (这个可能要占全过程60的工作量) 数据缩减和变换 找到有用的特征,维数缩减/变量缩减,不变量的表示。 选择数据挖掘的功能 数据总结, 分类模型数据挖掘, 回归分析, 关联规则挖掘, 聚类分析等. 选择挖掘算法 数据挖掘: 寻找感兴趣的模式 模式评估和知识表示 可视化,转换,消除冗余模式等等 运用发现的知识,什么是数据挖掘?(10),典型数据挖掘系统的体系结构,什么是数
10、据挖掘?(11),什么是数据挖掘?(12),为什么不是传统的数据分析 海量数据 算法必须有高度的可扩展性,以有效处理TB级数据 高维数据 可高达数万个不同的维 数据的高度复杂性 流数据和传感数据 时间数据、序列数据、时序数据 图、社会网络、多关系数据 异构数据库和遗产数据库 空间数据、时空数据、多媒体、文本和web数据. 新的、复杂的应用,并非所有的东西都是数据挖掘 基于数据仓库的OLAP系统 OLAP系统专注于数据的汇总,而数据挖掘系统可以对数据进行多种复杂的处理。 机器学习系统,数据统计分析系统 这些系统所处理的数据容量往往很有限。 信息系统 专注于数据的查询处理。 相比于上述系统,数据挖
11、掘系统关注更广的范围,是一个多学科的融合 海量数据处理,强调的是算法的可扩展性 i.e. 随着数据量的增加,算法运行时间的增长应该是接近线性的,什么是数据挖掘?(13),什么是数据挖掘?(14),数据挖掘:多个学科的融合,第1章 引言,在何种数据上进行数据挖掘,关系数据库 数据仓库 事务数据库 高级数据库系统和信息库 空间数据库 时间数据库和时间序列数据库 流数据 多媒体数据库 面向对象数据库和对象-关系数据库 异种数据库和历史(legacy)数据库 文本数据库和万维网(WWW),数据仓库,数据仓库 从多个数据源收集的信息存储库 存放在一个一致的模式之下 通常驻留在单个站点 通常使用多维数据模
12、型 通过数据立方体提供数据的多维视图 预计算和快速访问汇总数据 第三章详细讨论数据仓库技术,高级数据和信息系统与高级应用(1),空间数据库 空间数据库是指在关系型数据库(DBMS)内部对地理信息进行物理存储。空间数据库中存储的海量数据包括对象的空间拓扑特征、非空间属性特征以及对象在时间上的状态变化。 常见的空间数据库数据类型 地理信息系统(GIS) 遥感图像数据 医学图像数据 数据挖掘技术的应用:通过空间分类和空间趋势分析,引入机器学习算法,对有用模式进行智能检索,高级数据和信息系统与高级应用(2),时间数据库和时序数据库 时间数据库和时序数据库都存放与时间有关的数据。时间数据库通常存放包含时
13、间相关属性的数据。时序数据库存放随时间变化的值序列。 对时间数据库和时序数据库的数据挖掘,可以通过研究事物发生发展的过程,有助于揭示事物发展的本质规律,可以发现数据对象的演变特征或对象变化趋势。,高级数据和信息系统与高级应用(3),流数据 与传统的数据库技术中的静态数据不同,流数据是连续的、有序的、变化的、快速的、大量的数据输入的数据。 通常不存放在任何数据存储库中 主要应用场合 各类科学和工程数据;e.g.卫星监测数据 视频监测 气象或环境监测 流媒体等等 WEB点击流 与传统数据库技术相比,流数据在存储、查询、访问、实时性的要求等方面都有很大区别。,高级数据和信息系统与高级应用(4),多媒
14、体数据库 多媒体数据库实现用计算机管理庞大复杂的多媒体数据,主要包括包括图形(graphics)、图象(image)、声音(audio)、视频(video)等等,现代数据库技术一般将这些多媒体数据以二进制大对象的形式进行存储。 对于多媒体数据库的数据挖掘,需要将存储和检索技术相结合。目前的主要方法包括构造多媒体数据立方体、多媒体数据库的多特征提取和基于相似性的模式匹配。,高级数据和信息系统与高级应用(5),面向对象数据库和对象-关系数据库 面向对象数据库是面向对象技术和数据库技术结合的产物,该技术对数据以对象的形式进行存储,并在这个基础上实现了传统数据库的功能,包括持久性、并发控制、可恢复性、
15、一致性和查询数据库的能力等。 对象关系数据库基于对象关系模型构造,该模型通过处理复杂对象的丰富数据类型和对象定位等功能,扩充关系模型。 面向对象数据库和对象关系数据库中的数据挖掘会涉及一些新的技术,比如处理复杂对象结构、复杂数据类型、类和子类层次结构、构造继承以及方法和过程等等。,高级数据和信息系统与高级应用(6),异构数据库和历史(legacy)数据库 历史数据库是一系列的异构数据库系统的集合,包括不同种类的数据库系统,像关系数据库、网络数据库、文件系统等等。 有效利用历史数据库的关键在于实现不同数据库之间的数据信息资源、硬件设备资源和人力资源的合并和共享。 对于异构数据库系统,实现数据共享
16、应当达到两点:一是实现数据库转换;二是实现数据的透明访问。 WEB SERVICE技术的出现有利于历史数据库数据的重新利用。,高级数据和信息系统与高级应用(7),文本数据库和万维网(WWW) 文本数据库存储的是对对象的文字性描述。 文本数据库的分类 无结构类型(大部分的文本资料和网页) 半结构类型(XML数据) 结构类型(图书馆数据) 万维网(WWW)可以被看成最大的文本数据库 特征:信息最丰富;信息高度非结构化;缺乏预订义的模式、类型和格式 一些WEB挖掘的热点 权威WEB页面分析(搜索引擎) 自动WEB页面聚类和分类 WEB社区分析、WEB访问模式检索,上节课内容回顾,1.1 数据挖掘的发
17、展动力 数据爆炸 数据库技术的演化 1.2 什么是数据挖掘 定义:从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识 应用 数据挖掘系统的体系结构 和传统数据分析的区别 1.3 在何种数据上进行数据挖掘,第1章 引言,数据挖掘的主要功能 -可以挖掘什么类型的模式?,一般功能 描述性的数据挖掘 预测性的数据挖掘 通常,用户并不知道在数据中能挖掘出什么东西,对此我们会在数据挖掘中应用一些常用的数据挖掘功能,挖掘出一些常用的模式,包括: 概念/类描述: 特性化和区分 关联分析 分类和预测 聚类分析 孤立点分析 趋势和演变分析,概念/类描述: 特性化和区分,概念描述:
18、为数据的特征化和比较产生描述(当所描述的概念所指的是一类对象时,也称为类描述) 特征化:提供给定数据集的简洁汇总。 例:对AllElectronic公司的“大客户”(年消费额$1000以上)的特征化描述:4050岁,有固定职业,信誉良好,等等 区分:提供两个或多个数据集的比较描述。 例:,挖掘频繁模式、关联和相关,频繁模式是在数据中频繁出现的模式 关联规则挖掘: 从事务数据库,关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。 广泛的用于购物篮或事务数据分析。 例:,分类和预测,根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据(分类),
19、用来预测类型标志为所属的对象类(预测)。 比如:按气候将国家分类,按汽油消耗定额将汽车分类 导出模型的表示: 判定树、分类规则、神经网络 可以用来预报某些未知的或丢失的数字值 例: IF age = “40” AND credit_rating = “excellent” THEN buys_computer = “yes” IF age = “40” AND credit_rating = “fair” THEN buys_computer = “no”,第一步建立模型,训练数 据集,分类算法,IF rank = professor OR years 6 THEN tenured = yes
20、,分类规则,第二步用模型进行分类,分类规则,测试集,未知数据,(Jeff, Professor, 4),Tenured?,聚类分析,聚类分析 将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。 最大化类内的相似性和最小化类间的相似性 不像分类和预测分析标号类的数据对象,聚类分析数据对象不考虑已知的标号类 例:对WEB日志的数据进行聚类,以发现相同的用户访问模式,孤立点分析,孤立点分析 孤立点:一些与数据的一般行为或模型不一致的孤立数据 通常孤立点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论。 应用 信用卡欺诈检测 移动电话欺诈检测 客户划分
21、 医疗分析(异常),趋势和演变分析,描述行为随时间变化的对象的发展规律或趋势,并对其建模 将特征化、区分、关联、分类、聚类等技术应用于时间相关数据 一些演变分析的热点 时间序列数据分析 序列或周期模式匹配 基于相似性的数据分析 其他定向模式或统计分析,48,第1章 引言,所有模式都是有趣的吗?(1),数据挖掘可能产生数以千计的模式或规则,但并不是所有的模式或规则都是令人感兴趣的。 模式兴趣度的度量 一个模式是有趣的,如果(1) 它易于被人理解 ;(2)在某种程度上,对于新的或测试数据是有效的;(3)具有潜在效用;(4)新颖的;(5)符合用户确信的某种假设 模式兴趣度的客观和主观度量 客观度量:
22、 基于所发现模式的结构和关于它们的统计, 比如: 支持度、置信度等等 主观度量: 基于用户对数据的判断。比如:出乎意料的、新颖的、可行动的等等,所有模式都是有趣的吗?(2),能够产生所有有趣模式并且仅产生有趣模式吗? 找出所有有趣的模式: 数据挖掘算法的完全性问题 数据挖掘系统能够产生所有有趣的模式吗? 试探搜索 vs.穷举搜索 关联 vs. 分类 vs. 聚类 只搜索有趣的模式: 数据挖掘算法的最优化问题 数据挖掘系统可以仅仅发现有趣的模式吗? 方法 首先生成所有模式然后过滤那些无趣的. 仅仅生成有趣的模式挖掘查询优化,第1章 引言,数据挖掘系统的分类 (1),数据挖掘:多个学科的融合,数据
23、挖掘系统的分类 (2),数据挖掘的多学科融合的特性,决定了数据挖掘的研究将产生种类繁多的数据挖掘系统。 根据所挖掘的数据库分类 关系数据库,事务数据库,流式数据,面向对象数据库,对象关系数据库,数据仓库,空间数据库,时序数据库,文本数据库,多媒体数据库,异构数据库,历史数据库,WWW,数据挖掘系统的分类 (3),根据挖掘的知识类型 特征分析, 区分, 关联分析, 分类聚类, 孤立点分析/演变分析, 偏差分析等等. 多种方法的集成和多层级挖掘 根据挖掘所用的技术 面向数据库的挖掘、数据仓库 、OLAP、机器学习、统计学、可视化等等. 根据挖掘所用的应用 金融,电信,银行, 欺诈分析, DNA分析
24、,股票市场, Web挖掘等等.,第1章 引言,数据挖掘技术和数据仓库技术的集成(1),数据挖掘系统、数据库管理系统和数据仓库系统的耦合 不耦合, 松散耦合,半紧密耦合, 紧密耦合 联机分析和挖掘数据(OLAM) 挖掘和OLAP(联机分析处理)技术的集成 多个抽象层的交互知识挖掘 在不同层次上通过交互地在数据空间和知识空间下钻、上卷和转轴来挖掘知识和模式的必要性. 多种挖掘功能的集成特性化分类, 先聚类分析后关联分析,数据挖掘技术和数据仓库技术的集成(2),OLAM 体系结构,第1章 引言,数据挖掘的主要问题 (1),数据挖掘是多个学科融合,但本课程所关注的是:海量数据的挖掘的效率和可扩展性 本
25、课程中所要涵盖的主要数据挖掘问题包括: 挖掘方法问题和用户交互问题 在数据库中挖掘不同类型的知识 在不同抽象层上的交互式知识挖掘 背景知识的合并 数据挖掘查询语言和特定的数据挖掘 数据挖掘结果的表示和可视化 处理噪声和不完全数据 模式评估: 兴趣度问题,数据挖掘的主要问题 (2),性能问题:数据挖掘算法的效率、可扩展性(scalability)和并行处理 适用于海量数据 并行,分布式和增量挖掘算法 关于数据库类型多样性的问题 关系型和复杂数据类型的处理 为特定的数据类型构建特定的数据挖掘系统 从异构数据库中挖掘和全球信息系统挖掘信息 WEB数据挖掘,62,小结,1.1 数据挖掘的发展动力 1.
26、2 什么是数据挖掘 1.3 对何种数据进行数据挖掘 1.4 数据挖掘功能 1.5 所有模式都是有趣的吗 1.6 数据挖掘系统的分类 1.7 数据挖掘技术和数据仓库技术的集成 1.8 数据挖掘的主要问题,63,练习题,请设计一个数据挖掘系统,分析学校课程数据库。该数据库包括如下信息:每个学生的姓名、地址和状态(例如,本科生或研究生)、所修课程,以及他们的GPA(平均积分点)。描述你要选取的结构。该结构的每个成分的作用是什么? 与挖掘少量数据(如几百个元组的数据集合)相比,挖掘海量数据(如数兆元组)的主要挑战是什么?,64,Conferences and Journals on Data Mini
27、ng,KDD Conferences ACM SIGKDD Int. Conf. on Knowledge Discovery in Databases and Data Mining (KDD) SIAM Data Mining Conf. (SDM) (IEEE) Int. Conf. on Data Mining (ICDM) Conf. on Principles and practices of Knowledge Discovery and Data Mining (PKDD) Pacific-Asia Conf. on Knowledge Discovery and Data M
28、ining (PAKDD),Other related conferences ACM SIGMOD VLDB (IEEE) ICDE WWW, SIGIR ICML, CVPR, NIPS Journals Data Mining and Knowledge Discovery (DAMI or DMKD) IEEE Trans. On Knowledge and Data Eng. (TKDE) KDD Explorations ACM Trans. on KDD,65,Where to Find References? DBLP, CiteSeer, Google,Data mining
29、 and KDD (SIGKDD: CDROM) Conferences: ACM-SIGKDD, IEEE-ICDM, SIAM-DM, PKDD, PAKDD, etc. Journal: Data Mining and Knowledge Discovery, KDD Explorations, ACM TKDD Database systems (SIGMOD: ACM SIGMOD AnthologyCD ROM) Conferences: ACM-SIGMOD, ACM-PODS, VLDB, IEEE-ICDE, EDBT, ICDT, DASFAA Journals: IEEE
30、-TKDE, ACM-TODS/TOIS, JIIS, J. ACM, VLDB J., Info. Sys., etc. AI & Machine Learning Conferences: Machine learning (ML), AAAI, IJCAI, COLT (Learning Theory), CVPR, NIPS, etc. Journals: Machine Learning, Artificial Intelligence, Knowledge and Information Systems, IEEE-PAMI, etc. Web and IR Conferences
31、: SIGIR, WWW, CIKM, etc. Journals: WWW: Internet and Web Information Systems, Statistics Conferences: Joint Stat. Meeting, etc. Journals: Annals of statistics, etc. Visualization Conference proceedings: CHI, ACM-SIGGraph, etc. Journals: IEEE Trans. visualization and computer graphics, etc.,66,Recomm
32、ended Reference Books,S. Chakrabarti. Mining the Web: Statistical Analysis of Hypertex and Semi-Structured Data. Morgan Kaufmann, 2002 R. O. Duda, P. E. Hart, and D. G. Stork, Pattern Classification, 2ed., Wiley-Interscience, 2000 T. Dasu and T. Johnson. Exploratory Data Mining and Data Cleaning. Jo
33、hn Wiley & Sons, 2003 U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy. Advances in Knowledge Discovery and Data Mining. AAAI/MIT Press, 1996 U. Fayyad, G. Grinstein, and A. Wierse, Information Visualization in Data Mining and Knowledge Discovery, Morgan Kaufmann, 2001 J. Han and M. K
34、amber. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2nd ed., 2006 D. J. Hand, H. Mannila, and P. Smyth, Principles of Data Mining, MIT Press, 2001 T. Hastie, R. Tibshirani, and J. Friedman, The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Springer-Verlag, 2001
35、B. Liu, Web Data Mining, Springer 2006. T. M. Mitchell, Machine Learning, McGraw Hill, 1997 G. Piatetsky-Shapiro and W. J. Frawley. Knowledge Discovery in Databases. AAAI/MIT Press, 1991 P.-N. Tan, M. Steinbach and V. Kumar, Introduction to Data Mining, Wiley, 2005 S. M. Weiss and N. Indurkhya, Pred
36、ictive Data Mining, Morgan Kaufmann, 1998 I. H. Witten and E. Frank, Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, Morgan Kaufmann, 2nd ed. 2005,上节课内容回顾,1.4 数据挖掘的主要功能 概念/类描述: 特性化和区分 关联分析 分类和预测 聚类分析 孤立点分析 趋势和演变分析 1.5 所有模式都是有趣的吗? 模式兴趣度的度量 能够产生所有有趣模式并且仅产生有趣模式吗?,Thank You !,