1、 浙江万里学院,1,数据挖掘教程第一部分 导论,主讲:黄剑, 浙江万里学院,2,数据挖掘提纲,第一部分概述相关概念数据挖掘技术第二部分分类聚类关联规则第三部分Web 挖掘空间数据挖掘时序数据挖掘, 浙江万里学院,3,概述,数据挖掘的定义数据挖掘与数据库数据挖掘任务数据挖掘的发展数据挖掘的问题,目标: 提供数据挖掘的基本概念., 浙江万里学院,4,引言,数据量正在以惊人的速度增长用户希望得到深层的信息如何得到?,得到数据中隐藏着的信息数据挖掘(DM), 浙江万里学院,5,数据挖掘的定义,从数据库中发现隐藏的信息为数据寻找一个适合的模型类似的定义探索性数据分析数据驱动发现归纳学习, 浙江万里学院,
2、6,数据挖掘算法,目标: 为数据找一个适合的模型描述型模型预测型模型偏好 必须使用一些标准来进行模型选择搜索 所有的算法都要使用一些技术对数据进行搜索, 浙江万里学院,7,数据库处理 vs. 数据挖掘,查询容易定义SQL,查询很难定义没有一个精确的语言,数据 操作性数据,输出 精确的 数据库子集,Data 非操作性数据,Output 模糊的 非数据库子集, 浙江万里学院,8,例子分析,数据库数据挖掘,找出所有购买了牛奶的顾客,寻找出常常与牛奶一起被购买的商品. (关联规则),找出所有名字叫 Smith的信用卡申请人.,找出上一个月购买了价值 $10,000 以上商品的顾客.,找出那些低信用度的
3、申请人. (分类),顾客具有那些购买习惯. (聚类), 浙江万里学院,9,数据挖掘模型及任务, 浙江万里学院,10,基本数据挖掘任务,分类 将数据映射到预先定义好的群组或类有指导学习模式识别预测回归 将数据项映射到一个实值预测变量(线性回归,非线性回归,Logistic回归).聚类 将类似的数据归并为同一类别的过程.无指导的学习分割, 浙江万里学院,11,基本数据挖掘任务,汇总 将数据映射到伴有简单描述的子集.特征化泛化关联规则(连接分析) 揭示数据之间相互关系的一项数据挖掘任务.偏好的分析关联规则序列发现., 浙江万里学院,12,时间序列分析,例子: 证券市场预测未来的市值确定不用时间序列的
4、相似性确定时间序列行为, 浙江万里学院,13,数据挖掘VS知识发现,知识发现 (KDD): 从数据中发现有用的(隐藏的)模式.知识抽取、信息发现、探索性数据分析、信息收获、无指导模式识别.数据挖掘: 使用算法来抽取信息和模式,是KDD过程的一个步骤., 浙江万里学院,14,KDD 过程,选择: 从不同是数据源获取数据.预处理: 清洗数据.变换: 将不用数据源获得的数据转成统一的格式.数据挖掘: 产生期望的挖掘结果.解释/评价: 向最终用户提交结果.,Modified from FPSS96C, 浙江万里学院,15,可视化技术,图形的几何的 基于图标的基于象素的层次的混合的, 浙江万里学院,16
5、,数据挖掘发展,相似度度量聚类信息检索系统Web 搜索引擎,贝叶斯定理回归分析EM 算法K均值聚类时间序列分析,神经网络决策树算法,算法设计算法分析数据结构,关系数据模型SQL关联规则数据仓库数据压缩技术, 浙江万里学院,17,数据挖掘的问题,人的作用过拟和 异常点 结果的解释结果可视化 大型数据库高维数据, 浙江万里学院,18,数据挖掘的问题(续),多媒体数据缺失数据不相关数据噪声数据变化数据集成应用, 浙江万里学院,19,数据挖掘度量,有效性投资回报率 (ROI)准确性空间、时间, 浙江万里学院,20,数据挖掘的社会影响,隐私 特殊领域的分析不经过授权的使用, 浙江万里学院,21,从数据库
6、观点看数据挖掘,可伸缩性现实世界的数据更新使用方便, 浙江万里学院,22,数据挖掘未来的发展,仅仅是许多工具的集合需要人为定义需求,人为解释复杂的“查询语言”(DMQL)知识与数据发现管理系统数据挖掘的跨行业标准过程, 浙江万里学院,23,相关的概念,数据库/OLTP系统模糊集和模糊逻辑信息检索(Web 搜索引擎)维数据建模数据仓库OLAP/决策支持系统统计学机器学习模式匹配,目标: 研究每个概念及其与数据挖掘的联系., 浙江万里学院,24,数据库和OLTP系统,具有特定的关联结构和模式(ID,Name,Address,Salary,JobNo)数据模型实体关系(ER)关联处理查询:SELEC
7、T NameFROM TWHERE Salary 100000DM: 不确定的查询, 浙江万里学院,25,模糊集和模糊逻辑,模糊集: 一个集合,隶属于函数f,f是一个实值函数,输出在0,1之间.f(x): x属于F的可能性.1-f(x): x不属于F的可能性.EX:T = x | x 很高f(x) 就是x属于高的可能性DM: 预测和分类都是模糊的., 浙江万里学院,26,模糊集, 浙江万里学院,27,分类和预测,LoanAmnt,Simple,Fuzzy,Accept,Accept,Reject,Reject, 浙江万里学院,28,信息检索,信息检索 (IR): 从文本数据中检索出所需的信息.
8、图书馆(管理)学数字资源Web 搜索引擎基于传统关键词的搜索简单例子:找出所有关于数据挖掘的书.DM: 相似度度量; 文本数据挖掘., 浙江万里学院,29,信息检索 (续),相似性: 度量查询得到的文档与用户有兴趣的文档的相似程度.有效性.度量方法:查准率 = 检索到的相关文档 检索到的文档数召回率 = 检索到的相关文档 实际相关的文档数, 浙江万里学院,30,IR 查询结果的度量,IR,Classification, 浙江万里学院,31,维数据建模,以一种不同的方式查看和问询数据库中的数据,但不是必须,仅为了高效可在DSS和数据挖掘相结合的任务中使用维: 是一个逻辑相关的属性集合.事实: 存
9、储的特殊数据例如:维 产品, 地区, 日期 事实 数目, 单价数据挖掘: 把数据看成多维的., 浙江万里学院,32,多维数据的关系视图, 浙江万里学院,33,维数据查询,上卷: 更一般的层次下钻: 更特殊的层次聚合层次利用SQL进行聚合决策支持系统 (DSS): 辅助管理人员制定决策和解决问题的综合性计算机系统以及相关的工具包., 浙江万里学院,34,数据立方体, 浙江万里学院,35,聚合层次, 浙江万里学院,36,星形模式, 浙江万里学院,37,数据仓库,“面向主题的, 集成的, 随时间变化的, 非易失的” William Inmon操作型数据: 公司日常需要的,在使用是数据.信息型数据:
10、它们可以用来支持其他功能.数据挖掘工具经常读取数据仓库,而不是操作性数据., 浙江万里学院,38,操作型数据库和数据仓库比较, 浙江万里学院,39,OLAP,联机分析处理 (OLAP): 比传统的OLTP或数据库系统更复杂的查询结果.联机事务处理 (OLTP): 传统数据库/事务处理.多维数据; 立方体视图 OLAP的几种操作:切片: 查看子立方体或更多维上的特定信息.切块: 旋转立方体查看其他维上的信息.上卷/下钻可视化, 浙江万里学院,40,OLAP操作,Single Cell,Multiple Cells,Slice,Dice,Roll Up,Drill Down, 浙江万里学院,41,
11、统计学,一种描述型模型统计学的推断: 生成一个模型去拟合全部的数据,不仅仅是搜索到的数据.探索性数据分析: 从数据可以生成模型和任何统计特征与传统统计学是矛盾的.数据挖掘打算被商业用户使用DM: 很多数据挖掘模型来自于统计学技术., 浙江万里学院,42,机器学习,机器学习: 是AI的一个研究领域,它研究如何编写有学习能力的程序.机器学习经常被用作于预测和分类 有指导的学习: 学习例子.无指导的学习: 只存在数据,但却不知道将模型应用于数据的正确结果.机器学习常用于小规模的静态数据集. DM: 是许多核心数据挖掘课题的基础., 浙江万里学院,43,模式匹配 (识别),模式匹配: 找出在数据中出现
12、的预先定义的模式.模式匹配可以应用于许多不同的应用,信息检索,WEB搜索引擎.DM: 大部分用于分类., 浙江万里学院,44,数据挖掘VS相关课题, 浙江万里学院,45,数据挖掘技术,统计学点估计基于汇总的模型贝叶斯定理假设检验回归和相关相似性度量决策树神经网络激活函数遗传算法,目标: 对基本的数据挖掘基础提供一个概述, 浙江万里学院,46,点估计,点估计: 估计总体参数.一般总体样本参数估计经常通过实际计算一个总体样本的参数得到.也可用来估计(预测)缺失数据的值.例如: R 包括 100 个职员的集合99 拥有薪水的信息均值是 $50,000用 $50,000 当作无信息职员的薪水信息. I
13、s this a good idea?, 浙江万里学院,47,估计量偏差,偏差: 估计量的期望值和真实值的差.均方误差 (MSE): 估计值和真实值的差的平方的期望:为什么要平方?均方根 (RMSE), 浙江万里学院,48,折叠刀估计,Jackknife Estimate: 从一组观测值中忽略一个值来实现对参数的估计.例如: 估计 X=x1, , xn的均值, 浙江万里学院,49,极大似然估计 (MLE),与给定样本的实际概率成比例的一个值.从样本的分布中能够得到对参数的估计。似然值越高,潜在分布产生观测到的结果可能性就越大观察样本数据的联合概率,这个联合概率是样本的单个概率的乘积:L的最大值
14、., 浙江万里学院,50,MLE 例子,丢硬币五次: H,H,H,H,T如果硬币完好,它出现的正反面概率应该是一样的: 如果不完好,正面多于反面则出现:, 浙江万里学院,51,MLE 例子 (续),似然值的一般公式:P估计值 4/5 = 0.8, 浙江万里学院,52,期望最大化 (EM),解决不完全估计问题的一种方法.以估计值和训练数据为输入预测缺失值.反复进行直到后续的参数估计收敛., 浙江万里学院,53,EM 例子, 浙江万里学院,54,EM 算法, 浙江万里学院,55,基于汇总的模型,图形化呈现: 频度分析,均值,方差,中位数,模等箱线图:, 浙江万里学院,56,散点图, 浙江万里学院,
15、57,贝叶斯定理,后验概率: P(h1|xi)先验概率: P(h1)贝叶斯定理:为一个数据值指定一个假设的概率值., 浙江万里学院,58,Bayes 定理例子,信用卡审核 (假设): h1=授权, h2 = 进一步鉴定后批准, h3=不授权, h4= 不授权并报警收入的四个范围和信用等级的三个范围能够得到数据空间的12个值:通过数据得到: P(h1) = 60%; P(h2)=20%; P(h3)=10%; P(h4)=10%., 浙江万里学院,59,Bayes 例子(续),训练数据:, 浙江万里学院,60,Bayes 例子(续),计算 P(xi|hj) 和 P(xi)如: P(x7|h1)=
16、2/6; P(x4|h1)=1/6; P(x2|h1)=2/6; P(x8|h1)=1/6; P(xi|h1)=0 (其他 xi).预测 x4属于哪个类别:计算 P(hj|x4) ( 所有hj). 将 x4 分配到P(hj|x4)值最大的那个类中.如: P(h1|x4)=(P(x4|h1)(P(h1)/P(x4) =(1/6)(0.6)/0.1=1. x4 属于 h1., 浙江万里学院,61,假设检验,试图发现一个能够解释观测数据的模型.与大多数从实际数据中建立模型的数据挖掘方法是不同的.H0 空假设; 最先验证的假设.H1 备选假设, 浙江万里学院,62,卡方统计量,O 观测数据E 基于假设
17、的期望值.如: O=50,93,67,78,87E=75 c2=15.55查表得其显著性, 浙江万里学院,63,回归,用过去值预测未来值线性回归 假设输入数据和输出数据之间存在线性关系.y = c0 + c1 x1 + + cn xn找出拟合度最好的常量, 浙江万里学院,64,线性回归, 浙江万里学院,65,相关性,确定两个变量实际变化有多少相似.相关系数 r:1 = 完全相关-1 = 完全负相关0 = 不相关, 浙江万里学院,66,相似性度量,确定两类事务之间的相似程度.相似性度量具备的特征:另外,利用距离度量来度量项之间的“不相似性”., 浙江万里学院,67,常见的相似性度量, 浙江万里学
18、院,68,距离度量,度量事物之间的不相似性, 浙江万里学院,69,决策树,决策树 (DT):根和每个内部节点都被标记为一个问题. 从每个结点引出的弧代表与该结点相关联的问题的可能答案. 每个叶结点代表对问题解决方案的一个预测.常用的分类预测建模方法,每个结点代表不同的类., 浙江万里学院,70,20问游戏, 浙江万里学院,71,决策树,决策树模型 是一个计算型的模型,它由三个部分组成:决策树创建树的算法将树应用于数据并解决所考虑问题的算法 创建决策树是最难的一部分.运行计算类似于二叉树查找,但决策树不一定是二叉的,复杂度依赖于层数和最大分支数., 浙江万里学院,72,决策树算法, 浙江万里学院
19、,73,决策树的例子, 浙江万里学院,74,决策树 优势/弊端,优势:容易理解. 容易生成规则弊端:可能过拟合.对非数值型数据很难处理.决策树可能会非常大., 浙江万里学院,75,神经网络,依据人脑的工作方式进行建模. 人工神经网络 (ANN)神经网络实际上是一个信息处理系统. 构造成一个带有很多结点和弧的有向图.也可以从矩阵的角度审视神经网络的结构用于模式识别、语音识别、语音合成、故障检测、问题诊断、医疗、机器人控制等领域., 浙江万里学院,76,神经网络,神经网络 (NN) 是一个有向图 F= ,其中顶点 V=1,2,n ,弧 A=|1 必须具有位于 h-1层的结点i和位于 h层的结点j.
20、弧 用数值 wij表示.结点i用一个函数 fi标记., 浙江万里学院,77,神经网络例子, 浙江万里学院,78,神经网络结点, 浙江万里学院,79,神经网络激励函数,图中结点相关函数,处理单元函数.输出的范围可能 -1,1 或者 0,1, 浙江万里学院,80,神经网络激励函数, 浙江万里学院,81,神经网络模型,神经网络模型 是一个计算模型,它由三部分组成:定义神经网络数据结构的神经网络图 指明学习将如何进行的学习算法.确定如何从网络中获取信息的抽取结束. 本书中讨论传播过程., 浙江万里学院,82,神经网络优势,机器学习可以前面的应用中不断的学习,不断的修改自己的网络.并行化处理可以解决很多
21、问题, 浙江万里学院,83,神经网络的不足,不容易理解容易造成过拟合神经网络图必须事先确定.通常只适用于数值型.很难证明., 浙江万里学院,84,遗传算法,搜索类型的优化算法. 给出一个问题潜在解的种群,进化计算用新的更好的潜在解扩展该种群.试图模拟自然界,优胜劣汰,强者生存.个体由唯一编码来识别.个体: 是一个串 I=I1,I2,In 其中 Ij 属于 A. 每个特征 Ij 称作 基因. 种群: 一组个体的集合., 浙江万里学院,85,遗传算法,遗传算法 (GA) 是一个计算模型,包含五个部分:个体的初始种群, P.杂交技术.变异算法适应度函数对P反复应用杂交技术和变异算法,用适应度函数确定P中应保留的个体。算法每次都从种群中替换许多预先定义的个体,直到达到某个阀值., 浙江万里学院,86,杂交例子, 浙江万里学院,87,遗传算法, 浙江万里学院,88,遗传算法优势/不足,优势容易并行化Disadvantages遗传算法对最终用户来说很难理解和解释.问题抽象和个体表述十分困难.最佳的适应度函数很难确定.杂交和变异过程难以确定.,