1、主要内容 数据挖掘综述 数据仓库和数据挖掘的 OLAP 技术 数据预处理 数据挖掘原语、语言和系统结构 概念描述:特征化与比较 挖掘大型数据库中的关联规则 分类和预测 聚类分析 复杂类型数据的挖掘数据挖掘的应用和发展趋势我们拥有丰富的数据,但却缺乏有用的信息 解决方法:数据仓库技术和数据挖掘技术数据仓库(Data Warehouse)和在线分析处理(OLAP)数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束)数据库技术的演化1960s 和以前:文件系统1970s: 层次数据库和网状数据库( 1973 年 查理士巴赫曼 )1980s 早期:关系数据模型, 关系数据库管理系统(RD
2、BMS)的实现1980s 晚期:各种高级数据库系统(扩展的关系数据库,面向对象数据库等等.) 面向应用的数据库系统 (spatial 数据库,时序数据库,多媒体数据库等等)1990s: 数据挖掘, 数据仓库, 多媒体数据库和网络数据库2000s 流数据管理和挖掘 基于各种应用的数据挖掘 XML 数据库和整合的信息系统什么是数据挖掘?数据挖掘 (从数据中发现知识) 从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识 挖掘的不仅仅是数据(所以“数据挖掘”并非一个精确的用词)数据挖掘的替换词数据库中的知识挖掘(KDD) 、知识提炼、 数据/模式分析、数据考古、数据捕
3、捞、信息收获等等。并非所有东西都是“数据挖掘”查询处理. 专家系统或是小型的数学计算/统计程序知识挖掘的步骤了解应用领域了解相关的知识和应用的目标创建目标数据集:选择数据数据清理和预处理: (这个可能要占全过程 60的工作量)数据缩减和变换找到有用的特征,维数缩减/变量缩减,不变量的表示。选择数据挖掘的功能 数据总结, 分类模型数据挖掘, 回归分析, 关联规则挖掘, 聚类分析等. 选择挖掘算法 数据挖掘: 寻找感兴趣的模式 模式评估和知识表示 可视化,转换,消除冗余模式等等 运用发现的知识数据挖掘的主要方法 (1)概念/类描述: 特性化和区分归纳,总结和对比数据的特性。比如:对每个月来网站购物
4、超过 5000 元的顾客的描述:4050 岁,有正常职业,信用程度良好。关联分析发现数据之间的关联规则,这些规则展示属性值频繁的在给定的数据中所一起出现的条件。广泛的用于购物篮或事务数据分析。分类和预测通过构造模型 (或函数)用来描述和区别类或概念,用来预测类型标志未知的对象类。比如:按气候将国家分类,按汽油消耗定额将汽车分类 导出模型的表示: 判定树、分类规则、神经网络 可以用来预报某些未知的或丢失的数字值 聚类分析将类似的数据归类到一起,形成一个新的类别进行分析。最大化类内的相似性和最小化类间的相似性孤立点分析孤立点:一些与数据的一般行为或模型不一致的孤立数据通常孤立点被作为“噪音”或异常
5、被丢弃,但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论。趋势和演变分析描述行为随时间变化的对象的发展规律或趋势趋势和偏差:回归分析序列模式匹配:周期性分析 、基于类似性的分析、其他定向模式或统计分析所有模式都是有趣的吗?数据挖掘可能产生数以千计的模式或规则,但并不是所有的模式或规则都是令人感兴趣的。模式兴趣度的度量一个模式是有趣的,如果(1) 它易于被人理解 ;(2)在某种程度上,对于新的或测试数据是有效的;(3)具有潜在效用;(4)新颖的;(5)符合用户确信的某种假设模式兴趣度的客观和主观度量客观度量: 基于所发现模式的结构和关于它们的统计, 比如: 支持度、置信度等等主观度量:
6、 基于用户对数据的判断。比如:出乎意料的、新颖的、可行动的等等多种数据挖掘的视角 根据所挖掘的数据库分类关系数据库, 事务数据库,流式数据, 面向对象数据库, 对象关系数据库,数据仓库,空间数据库, 时态数据库, 文本数据库, 多媒体数据库, 异构数据库, 历史数据库, WWW根据挖掘的知识类型特征分析, 区分, 关联分析, 分类, 聚类, 孤立点分析/演变分析, 偏差分析等等.多种方法的集成和多层次挖掘根据挖掘所用的技术面向数据库的挖掘、数据仓库 、OLAP、机器学习、统计学、可视化等等.根据挖掘所用的应用金融,电信,银行, 欺诈分析, DNA 分析,股票市场, Web 挖掘等等.什么是数据
7、仓库?数据仓库的定义很多,但却很难有一种严格的定义它是一个提供决策支持功能的数据库,它与公司的操作数据库分开维护。 为统一的历史数据分析提供坚实的平台,对信处理提供支持“数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程.”W. H. Inmon(数据仓库构造方面的领头设计师)建立数据仓库(data warehousing):构造和使用数据仓库的过程。数据仓库关键特征一面向主题围绕一些主题,如顾客、供应商、产品等 关注决策者的数据建模与分析,而不是集中于组织机构的日常操作和事务处理。 排除对于决策无用的数据,提供特定主题的简明视图。数据仓库关键特征二
8、数据集成 一个数据仓库是通过集成多个异种数据源来构造的。 关系数据库,一般文件,联机事务处理记录 使用数据清理和数据集成技术。 确保命名约定、编码结构、属性度量等的一致性。 当数据被移到数据仓库时,它们要经过转化。数据仓库关键特征三随时间而变化 数据仓库的时间范围比操作数据库系统要长的多。操作数据库系统: 主要保存当前数据。数据仓库:从历史的角度提供信息(比如过去 5-10 年) 数据仓库中的每一个关键结构都隐式或显式地包含时间元素,而操作数据库中的关键结构可能就不包括时间元素。数据仓库关键特征四数据不易丢失尽管数据仓库中的数据来自于操作数据库,但他们却是在物理上分离保存的。操作数据库的更新操
9、作不会出现在数据仓库环境下。不需要事务处理,恢复,和并发控制等机制只需要两种数据访问: 数据的初始装载和数据访问(读操作)数据仓库与操作数据库系统 操作数据库系统的主要任务是联机事务处理 OLTP日常操作: 购买,库存,银行,制造,工资,注册,记帐等 数据仓库的主要任务是联机分析处理 OLAP 数据分析和决策 OLTP 和 OLAP 的主要区别:用户和系统的面向性: 顾客 VS. 市场数据内容: 当前的、详细的数据 VS. 历史的、汇总的数据数据库设计:实体联系模型(ER)和面向应用的数据库设计 VS. 星型/雪花模型和面向主题的数据库设计视图: 当前的、企业内部的数据 VS. 经过演化的、集
10、成的数据访问模式: 事务操作 VS. 只读查询(但很多是复杂的查询)为什么需要一个分离的数据仓库?提高两个系统的性能DBMS 是为 OLTP 而设计的:存储方式,索引, 并发控制, 恢复数据仓库是为 OLAP 而设计:复杂的 OLAP 查询, 多维视图,汇总不同的功能和不同的数据:历史数据: 决策支持需要历史数据,而这些数据在操作数据库中一般不会去维护数据汇总:决策支持需要将来自异种源的数据统一(如聚集和汇总)数据质量: 不同的源使用不一致的数据表示、编码和格式,对这些数据进行有效的分析需要将他们转化后进行集成数据仓库和数据仓库技术基于 多维数据模型 。这个模型把数据看作是 数据立方体 形式。
11、多维数据模型围绕中心主题组织,该主题用 事实表 表示。 事实 是数值度量的。数据立方体 允许以多维数据建模和观察。它由 维 和 事实 定义。维 是关于一个组织想要记录的视角或观点。每个维都有一个表与之相关联,称为 维表 。事实表 包括事实的名称或度量以及每个相关维表的关键字在数据仓库的研究文献中,一个 n 维的数据的立方体叫做 基本方体 。给定一个维的集合,我们可以构造一个 方体的格 ,每个都在不同的汇总级或不同的数据子集显示数据,方体的格称为 数据立方体 。0 维方体存放最高层的汇总,称作 顶点方体 ;而存放最底层汇总的方体则称为 基本方体 。数据仓库的概念模型种类:最流行的数据仓库概念模型
12、是多维数据模型。这种模型可以以星型模式、雪花模式、或事实星座模式的形式存在。星型模式(Star schema): 事实表在中心,周围围绕地连接着维表(每维一个) ,事实表含有大量数据,没有冗余。雪花模式(Snowflake schema): 是星型模式的变种,其中某些维表是规范化的,因而把数据进一步分解到附加表中。结果,模式图形成类似于雪花的形状。事实星座(Fact constellations): 多个事实表共享维表, 这种模式可以看作星型模式集,因此称为星系模式(galaxy schema) ,或者事实星座(fact constellation) 多维数据模型上的 OLAP 操作上卷(ro
13、ll-up):汇总数据通过一个维的概念分层向上攀升或者通过维规约下钻(drill-down):上卷的逆操作由不太详细的数据到更详细的数据,可以通过沿维的概念分层向下或引入新的维来实现切片和切块(slice and dice) :投影和选择操作转轴(pivot) :立方体的重定位,可视化,或将一个 3 维立方体转化维一个 2 维平面序列其他 OLAP 操作钻过(drill_across):执行涉及多个事实表的查询钻透(drill_through):使用关系 SQL 机制,钻到数据立方体的底层,到后端关系表数据仓库设计:一个商务分析框架数据仓库设计的四种视图自顶向下视图:允许我们选择数据仓库所需的
14、相关信息数据源视图:揭示被操作数据库系统所捕获、存储和管理的信息数据仓库视图:有事实表和维表所组成商务查询视图:从最终用户的角度透视数据仓库中的数据数据仓库的设计过程自顶向下法、自底向上法或者两者的混合方法 自顶向下法:由总体设计和规划开始(成熟) 自底向上法:以实验和原型开始(快速)从软件过程的观点瀑布式方法:在进行下一步前,每一步都进行结构化和系统的分析螺旋式方法:功能渐增的系统的快速产生,相继版本之间间隔很短典型的数据仓库设计过程:选取待建模的 商务过程 、选取商务过程的 粒度 、选取用于每个事实表记录的 维选取将安放在事实表中的度 量OLAP 服务器类型 关系 OLAP 服务器(ROL
15、AP) 使用关系数据库或扩展的关系数据库存放并管理数据仓库的数据,而用 OLAP 中间件支持其余部分 包括每个 DBMS 后端优化,聚集导航逻辑的实现,附加的工具和服务 较大的可扩展性 多维 OLAP 服务器(MOLAP) 基于数组的多维存储引擎(稀疏矩阵技术) 能对预计算的汇总数据快速索引 混合 OLAP 服务器(HOLAP) 结合上述两种技术,更大的使用灵活性 特殊的 SQL 服务器 在星型和雪花模型上支持 SQL 查询数据仓库的实现 难点 海量数据 快速反应 OLAP 服务器要在几秒内响应决策支持查询 方法 高效的数据立方体计算技术 高效的存取方法 高效的查询处理技术数据立方体的有效计算
16、 数据立方体可以被看成是一个 方体的格 最底层的方体是基本方体 最顶端的方体(顶点)只包含一个单元的值 一个 n 维的数据立方体,每维 L 层,可能产生的方体总数是多少? 数据立方体的 物化 预先计算所有方体( 全物化 ) ,不预先计算任何“非基本”方体( 不物化 ) ,有选择的计算一个所有方体的适当子集( 部分物化 ) 确定物化哪些方体考虑工作负荷下的查询、它们的频率和它们的开销等等方体计算:关系型 OLAP 的方法(ROLAP) 方体计算的有效方法 基于 ROLAP 的方体算法(Agarwal et al96) 基于数组的算法 (MOLAP)(Zhao et al97) 自底向上的计算方法
17、(Beyer & Ramarkrishnan99) H-cubing 技术 (Han, Pei, Dong & Wang:SIGMOD01) 基于 ROLAP 的方法 将排序、散列(hashing)和分组操作应用于维的属性,以便对相关元组重新排序和聚类 在某些子聚集上分组,作为“部分分组步骤” 。 可以由以前计算的聚集计算新的聚集,而不必由基本事实表计算元数据存储 在数据仓库中,元数据就是定义数据仓库对象的数据。有以下几种: 数据仓库结构的描述 仓库模式、视图、维、层次结构、导出数据的定义,以及数据集市的位置和内容 操作元数据 包括数据血统(data lineage)、数据类别(currenc
18、y of data),以及监视信息 汇总用的算法 由操作环境到数据仓库的映射 关于系统性能的数据 索引,profiles,数据刷新、更新或复制事件的调度和定时 商务元数据 商务术语和定义、数据拥有者信息、收费政策等元数据的使用 元数据与数据一起,构成了数据仓库中的数据模型,元数据所描述的更多的是这个模型的结构方面的信息。 在数据仓库中,元数据的主要用途包括: 用作目录,帮助决策支持系统分析者对数据仓库的内容定义 作为数据仓库和操作性数据库之间进行数据转换时的映射标准 用于指导当前细节数据和稍加综合的数据之间的汇总算法,指导稍加综合的数据和高度综合的数据之间的汇总算法。数据仓库的应用 数据仓库的
19、三种应用 信息处理 支持查询和基本的统计分析,并使用交叉表、表、图标和图进行报表处理 分析处理 对数据仓库中的数据进行多维数据分析 支持基本的 OLAP 操作,切块、切片、上卷、下钻、转轴等 数据挖掘 从隐藏模式中发现知识 支持关联分析,构建分析性模型,分类和预测,并用可视化工具呈现挖掘的结果三种应用间的差别从联机分析处理到联机分析挖掘 为什么要联机分析挖掘 数据仓库中有高质量的数据 数据仓库中存放着整合的、一致的、清理过的数据 围绕数据仓库的信息处理结构 存取、集成、合并多个异种数据库的转换,ODBC/OLEDB 连接,Web 访问和访问工具等 基于 OLAP 的探测式数据分析 使用上卷、下
20、钻、切片、转轴等技术进行数据挖掘 数据挖掘功能的联机选择 多种数据挖掘功能、算法和任务的整合作业:查阅资料,谈谈 OLAP、DM、OLAM 的联系和区别。为什么要预处理数据? 现实世界的数据是“肮脏的” 不完整的:有些感兴趣的属性缺少属性值,或)1(niLT仅包含聚集数据 含噪声的:包含错误或者“孤立点” 不一致的:在编码或者命名上存在差异 没有高质量的数据,就没有高质量的挖掘结果 高质量的决策必须依赖高质量的数据 数据仓库需要对高质量的数据进行一致地集成数据预处理的主要任务 数据清理 填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致性 数据集成 集成多个数据库、数据立方体或文件 数据
21、变换 规范化和聚集 数据归约 得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果 数据离散化 数据归约的一部分,通过概念分层和数据的离散化来规约数据,对数字型数据特别重要数据预处理的形式空缺值 数据并不总是完整的 例如:数据库表中,很多条记录的对应字段没有相应值,比如销售表中的顾客收入 引起空缺值的原因 设备异常 与其他已有数据不一致而被删除 因为误解而没有被输入的数据 在输入时,有些数据因为得不到重视而没有被输入 对数据的改变没有进行日志记载空缺值要经过推断而补上如何处理空缺值 忽略元组:当类标号缺少时通常这么做(假定挖掘任务设计分类或描述) ,当每个属性缺少值的百分比变化很大时,它
22、的效果非常差。 人工填写空缺值:工作量大,可行性低 使用一个全局变量填充空缺值:比如使用 unknown 或- 使用属性的平均值填充空缺值 使用与给定元组属同一类的所有样本的平均值 使用最可能的值填充空缺值:使用像 Bayesian 公式或判定树这样的基于推断的方法噪声数据 噪声:一个测量变量中的随机错误或偏差 引起不正确属性值的原因 数据收集工具的问题 数据输入错误 数据传输错误 技术限制 命名规则的不一致 其它需要数据清理的数据问题 重复记录 不完整的数据 不一致的数据如何处理噪声数据 分箱(binning): 首先排序数据,并将他们分到等深的箱中 然后可以按箱的平均值平滑、按箱中值平滑、
23、按箱的边界平滑等等 聚类: 监测并且去除孤立点 计算机和人工检查结合 计算机检测可疑数据,然后对它们进行人工判断 回归 通过让数据适应回归函数来平滑数据数据平滑的分箱方法 price 的排序后数据(单位:美元):4,8,15,21,21,24,25,28,34 划分为(等深的)箱: 箱 1:4,8,15 箱 2:21,21,24 箱 3:25,28,34 用箱平均值平滑: 箱 1:9,9,9 箱 2:22,22,22 箱 3:29,29,29 用箱边界平滑: 箱 1:4,4,15 箱 2:21,21,24 箱 3:25,25,34 数据集成: 将多个数据源中的数据整合到一个一致的存储中 模式集
24、成: 整合不同数据源中的元数据 实体识别问题:匹配来自不同数据源的现实世界的实体,比如:A.cust-id=B.customer_no 检测并解决数据值的冲突 对现实世界中的同一实体,来自不同数据源的属性值可能是不同的可能的原因:不同的数据表示,不同的度量等等处理数据集成中的冗余数据 集成多个数据库时,经常会出现冗余数据 同一属性在不同的数据库中会有不同的字段名 一个属性可以由另外一个表导出,如“年薪” 有些冗余可以被相关分析检测到 仔细将多个数据源中的数据集成起来,能够减少或避免结果数据中的冗余与不一致性,从而可以提高挖掘的速度和质量。数据变换 平滑:去除数据中的噪声 聚集:汇总,数据立方体
25、的构建 数据概化:沿概念分层向上汇总 规范化:将数据按比例缩放,使之落入一个小的特定区间 最小最大规范化 z-score 规范化 小数定标规范化 属性构造通过现有属性构造新的属性,并添加到属性集中。数据变换规范化数据归约策略 数据仓库中往往存有海量数据,在其上进行复杂的数据分析与挖掘需要很长的时间 数据归约 数据归约可以用来得到数据集的归约表示,它小得多,但可以产生相同的(或几乎相同的)分析结果 数据归约策略 数据立方体聚集 维归约 数据压缩 数值归约 离散化和概念分层产生 用于数据归约的时间不应当超过或“抵消”在归约后的数据上挖掘节省的时间。数据立方体聚集 最底层的方体对应于基本方体 基本方
26、体对应于感兴趣的实体 在数据立方体中存在着不同级别的汇总 数据立方体可以看成方体的格 每个较高层次的抽象将进一步减少结果数据 数据立方体提供了对预计算的汇总数据的快速访问 使用与给定任务相关的最小方体 在可能的情况下,对于汇总数据的查询应当使用数据立方体维归约 通过删除不相干的属性或维减少数据量 属性子集选择 找出最小属性集,使得数据类的概率分布尽可能的接近使用所有属性的原分布 减少出现在发现模式上的属性的数目,使得模式更易于理解 启发式的(探索性的)方法 逐步向前选择 逐步向后删除 向前选择和向后删除相结合 判定归纳树数值归约 通过选择替代的、较小的数据表示形式来减少数据量 有参方法:使用一
27、个参数模型估计数据,最后只要存储参数即可。 线性回归方法:Y=+X 多元回归:线性回归的扩充 对数线性模型:近似离散的多维数据概率分布 无参方法: 直方图 聚类 选样直方图 一种流行的数据归约技术 将某属性的数据划分为不相交的子集,或桶,桶中放置该值的出现频率 桶和属性值的划分规则 等宽 等深 V-最优 MaxDiff 数据预处理的主要任务 数据清理 填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致性 数据集成 集成多个数据库、数据立方体或文件 数据变换 规范化和聚集 数据归约 得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果 数据离散化 数据归约的一部分,通过概念分层和数据
28、的离散化来规约数据,对数字型数据特别重要离散化 三种类型的属性值: 名称型e.g. 无序集合中的值 序数e.g. 有序集合中的值 连续值e.g. 实数 离散化 将连续属性的范围划分为区间 有效的规约数据 基于判定树的分类挖掘 离散化的数值用于进一步分析 离散化 通过将属性域划分为区间,减少给定连续属性值的个数。区间的标号可以代替实际的数据值。 概念分层 通过使用高层的概念(比如:青年、中年、老年)来替代底层的属性值(比如:实际的年龄数据值)来规约数据数据挖掘原语、语言和系统结构为什么要数据挖掘原语和语言? 没有精确的指令和规则,数据挖掘系统就没法使用。 一个完全自动(不需要人为干预或指导)的数
29、据挖掘机器: 会产生大量模式(重新把知识淹没) 会涵盖所有数据,使得挖掘效率低下 大部分有价值的模式集可能被忽略 挖掘出的模式可能难以理解,缺乏有效性、新颖性和实用性令人不感兴趣。 用数据挖掘原语和语言来指导数据挖掘。数据挖掘原语的组成部分 数据挖掘原语应该包括以下部分: 说明数据库的部分或用户感兴趣的数据集 要挖掘的知识类型 用于指导挖掘的背景知识 模式评估、兴趣度量 如何显示发现的知识 数据挖掘原语用于用户和数据挖掘系统通信,让用户能从不同的角度和深度审查和发现结果,并指导挖掘过程。说明数据挖掘任务的原语(5 种) 任务相关的数据 数据库(仓库)名、数据立方体、选择条件、相关属性、分组条件
30、 挖掘的知识类型 特征化、区分、关联、分类/预测、聚类 背景知识 概念分层,关联的确信度 模式兴趣度度量 简单性、确定性、实用性、新颖性 发现模式的可视化 规则、表、图表、图、判定树兴趣度度量特性: 没有兴趣度度量,挖掘出来的有用模式,很可能会给淹没在用户不感兴趣的模式中。 简单性 确定性(置信度) 实用性(支持度) 新颖性 简单性(simplicity) 模式是否容易被人所理解 模式结构的函数(模式的长度、属性的个数、操作符个数) 。e.g. 规则长度或者判定树的节点个数。 确定性(certainty) 表示一个模式在多少概率下是有效的。 置信度 (A=B)=(包含 A 和 B 的元组值)/
31、(包含A 的元组值),e.g. buys(X, “computer)=buys(X, “software”) 30%, 80% 100%置信度:准确的。 实用性 可以用支持度来进行度量:支持度(A=b) = (包含 A 和 B 的元组数)/(元组总数) e.g. buys(X, “computer)=buys(X, “software”)30%, 80% 同时满足最小置信度临界值和最小支持度临界值的关联规则称为 强关联规则 。 新颖性 提供新信息或提高给定模式集性能的模式 通过删除冗余模式来检测新颖性(一个模式已经为另外一个模式所蕴涵) Location(X, “Canada”)=buys(X
32、, 050“Sony_TV”) 8%, 70% Location(X, “Vancouver”)=buys(X, “Sony_TV”) 2%, 70% 兴趣度的客观度量方法:根据模式的结构和统计,用一个临界值来判断某个模式是不是用户感兴趣的。指定挖掘知识类型 要挖掘的知识类型将决定所使用的数据挖掘功能。 几种主要的数据挖掘功能 特征化 目标数据的一般特征或特性汇总 数据区分 将目标对象的一般特性与一个或多个对比类对象的特性相 比较 关联分析 发现关联规则,这些规则展示属性值频繁的在给定数据中集中一起出现的条件 分类 找出区分数据类或概念的模型(或函数) ,以便用之标志未知的对象类。 聚类分析、
33、孤立点分析、演变分析兴趣度度量说明的语法 兴趣度的度量包括置信度、支持度、噪声和新颖度等度量,可以通过将模式的兴趣度度量与相应的临界值相比较决定一个模式是否为感兴趣的模式。with threshold = threshold_value 示例:挖掘关联规则时限定找到的感兴趣模式必须满足最小支持度为 5%,最小置信度为 70%with support threshold = 5%with confidence threshold = 70%概念描述:特征化与比较什么是概念描述? 描述性挖掘 VS. 预测性挖掘 描述性挖掘:以简洁概要的方式描述数据,并提供数据的有趣的一般性质。 预测性数据挖掘:通
34、过分析数据建立一个或一组模型,并试图预测新数据集的行为。 概念描述:为数据的特征化和比较产生描述(当所描述的概念所指的是一类对象时,也称为 类描述 ) 概念描述方法:特征化:提供给定数据集的简洁汇总。区分:提供两个或多个数据集的比较描述。概念描述 VS. OLAP 概念描述和数据仓库的联机分析处理(OLAP)都跟数据概化密切相关,即以简洁的形式在更一般的抽象层描述数据,允许数据在抽象层概化,便于考察数据的一般行为。 两者的主要区别: 概念描述 可以处理复杂数据类型的属性及其聚集 一个更加自动化的过程 OLAP 实际使用的 OLAP 系统中,维和度量的数据类型都非常有限(非数值型的维和数值型的数
35、据) ,表现为一种简单的数据分析模型 一个由用户控制的过程数据概化和基于汇总的特征化 数据概化 数据库中的数据和对象通常包含原始概念层的细节信息,数据概化就是将数据库中的跟任务相关的数据集从较低的概念层抽象到较高的概念层的过程。 主要方法: 数据立方体(OLAP 使用的方法) 面向属性的归纳方法数据概化:数据立方体方法(不使用面向属性的归纳) 执行计算并将结果存储在数据立方体中 优点: 数据概化的一种有效实现 可以计算各种不同的度量值 比如:count(), sum(), average(), max() 概化和特征分析通过一系列的数据立方体操作完成,比如上卷、下钻等 缺点 只能处理非数据类型
36、的维和简单聚集数值类型的度量值 缺乏智能分析,不能自动确定分析中该使用哪些维,应该概化到哪个层次面向属性的归纳 Attribute-oriented induction, AOI (KDD 89 Workshop) 受数据类型和度量类型的约束比较少 面向属性归纳的基本思想: 使用关系数据库查询收集任务相关的数据 通过考察任务相关数据中每个属性的不同值的个数进行概化,方法是属性删除或者是属性概化 通过合并相等的,概化的广义元组,并累计他们对应的计数值进行聚集操作 通过与用户交互,将广义关系以图表或规则等形式,提交给用户面向属性的归纳的基本步骤 数据聚焦,获得初始工作关系 进行面向属性的归纳 基本
37、操作是数据概化,对有 大量不同值的属性 ,进行进一步概化 属性删除 属性概化 属性概化控制:控制概化过程,确定有多少不同的值才算是有 大量不同值的属性 属性概化临界值控制概化关系临界值控制数据概化 属性删除的适用规则:对初始工作关系中具有大量不同值的属性,符合以下情况,应使用属性删除: 在此属性上没有概化操作符(比如该属性没有定义相关的概念分层) 该属性的较高层概念用其他属性表示 属性概化的使用规则:如果初始工作关系中的某个属性具有大量不同值,且该属性上存在概化操作符,则使用该概化操作符对该属性进行数据概化操作属性概化控制 确定什么是“具有大量的不同值” ,控制将属性概化到多高的抽象层。 属性
38、概化控制的两种常用方法: 属性概化临界值控制 对所有属性设置一个概化临界值或者是对每个属性都设置一个临界值(一般为 2 到 8) 概化关系临界值控制 为概化关系设置一个临界值,确定概化关系中,不同元组的个数的最大值。(通常为 10 到 30,应该允许在实际应用中进行调整) 两种技术的顺序使用:使用属性概化临界值控制来概化每个属性,然后使用关系临界值控制进一步压缩概化的关系。 相等元组的合并、累计计数和其他聚集值导出概化的表示 概化关系 一部分或者所有属性得到概化的关系,包含计数或其他度量值的聚集 交叉表 二维交叉表使用每行显示一个属性,使用每列显示另外一个属性将结果集映射到表中 可视化技巧:
39、条形图、饼图、曲线和数据立方体浏览工具(用单元的大小代表计数,用单元亮度代表另外的度量) 量化规则 量化特征规则将概化的结果映射到相应的量化特征规则中,比如:解析特征化:属性相关分析 属性相关分析 通过识别不相关或者是弱相关的属性,将它们排除在概念描述过程之外,从而确定哪些属性应当包含在类特征化和类比较中。 解析特征化 包含属性/维相关分析的类特征化 解析比较 包含属性/维相关分析的类比较为什么进行属性相关分析? 数据仓库和 OLAP 系统中的多维数据分析缺乏一个 自动概化过程 ,这使得这个过程中需要有很多用户干预 用户必须告诉系统哪些维或属性应当包含在类分析中 属性太少,则造成挖掘的描述结果
40、不正确 属性太多,浪费计算、淹没知识 告诉系统每个维应当概化到多高的层次 直接通过概化的临界值,说明给定维应当达到的概化程度 对概化层次不满意,则可以指定需要上卷或下钻的维属性相关分析 通过属性相关性分析,滤掉统计上不相关或弱相关的属性,保留对手头数据挖掘任务最相关的属性。 对于给定的属性,一个属性或维被认为是高度相关的,如果该属性或维的值可能用于区分该类和其他类。 比如:区分昂贵汽车和便宜汽车(可选择的属性:颜色,型号,品牌.) 在同一个维内,对于区分一个类与其他类不同层的概念可能有很不同的能力 比如:birth_date 维,day, month 与 salary无关,而 year(或将其
41、进一步概化为birth_decade)则与 salary 有关 类特征化中的比较类 除特征化的数据集外,数据库中可比较的数据集都作为对比类 比如:研究生特征化的例子,对比类为不是研究生的学生的集合(e.g.本科生) (可选择的属性:性别、籍贯、专业、平均成绩、年龄段) 属性相关分析的方法 属性相关分析的基本思想是计算某种度量,用于量化属性与给定类或概念的相关性。niiaqcoutqcoutweight 1)(/)(_: )(.: )()(_arg , mll wtXconditwtXconditlsetX%45: “ )(.%25: )“AmiNoh lcaionAsaapueri 可采用的度
42、量包括:信息增益、Gini 索引、不确定性和相关系数。 (涉及机器学习、统计、模糊和粗糙集理论等方面的相关知识) 比如:信息增益通过计算一个样本分类的期望信息和属性的熵来获得一个属性的信息增益,判定该属性与当前的特征化任务的相关性。 概念描述的属性相关分析步骤 数据收集 通过查询处理,收集目标类和对比类数据 使用保守的 AOI 进行预相关分析 识别属性和维的集合,它们是所选择的相关性分析度量的应用对象,通过该步骤产生 候选关系 使用选定的相关分析度量删除不相关和弱相关的属性 使用选定的相关分析度量,评估 候选关系 中的每个属性 使用 AOI 产生概念描述 使用一组不太保守的属性概化临界值进行
43、AOI类比较描述的判别规则表示(1) 类比较描述中的目标类和对比类的区分特性也可以用量化规则来表示,即量化区分规则 量化区分规则使用 d-weight 作为兴趣度度量 qa概化元组 Cj目标类 qa的 d-weight 是初始目标类工作关系中被 qa覆盖的元组数 与 初始目标类和对比类工作关系中被 qa覆盖的总元组数的比在大型数据库中挖掘描述统计计量 对于数据挖掘任务,用户经常关心的数据特征包括数据的中心趋势和离散特征 中心趋势的度量包括: mean, median, mode 和 midrange 数据离散度量包括: quartiles, outliers, variance 和其他度量 关
44、系数据库中,系统提供了以下聚集函数: count(), sum(), avg(), max(), min() 在大型数据库中挖掘用户感兴趣的描述统计计量涉及到如何利用关系数据库现有的函数来计算上述两类用户感兴趣的度量值 算术平均值 加权算术平均 中位值:使用一个近似的计算来度量 如果值的个数 n 是奇数,则中位数(median)是有序集合的中间值,否则它是中间两个数的平均值 用插值法(interpolation)来近似计算 模(mode) 表示数据集中出现频率最高的值 单模态、双模态、三模态、多模态和没有模的情况 单模态近似值计算的经验公式:中列数:最大值和最小值的平均度量数据的离散度 最常用
45、度量:五数概括(基于四分位数) 、中间四分位数区间和标准差 四分位数、孤立点和盒图 百分位数 (percentile):第 k 个百分位数是具有如下性质的值 x:数据项的 k%在 x 上或低于x 四分位数: Q1 (25th percentile), Q3 (75th percentile) 中间四分位数区间 (IQR): IQR = Q3 Q1 对倾斜分布的描述,除了 IQR 还常需两个四分位数 Q1和 Q3,以及中位数 M,一个识别孤立点的常用规则是:挑出落在至少高于第三个四分位数或低于第一个四分位数 1.5IQR 处的值 在盒图中: 端点在四分位数上,使得盒图的长度是 IQR 中位数 M
46、 用盒内的线标记 胡须延伸到最大最小观测值 该盒图为在给定时间段在 AllElectronics 的 4 个分店销售的商品单价的盒图 分店 1 中位数$80 Q1: $60 Q3: $100m1a)count(qweightdiijCnix1 niiiwx1cflnLmediamedian)(2/1)(3edianodeman基本统计类描述的图形显示直方图 常用的显示数据汇总和分布的方法: 直方图、分位数图、q-q 图、散布图和局部回归曲线 直方图 一种单变量图形方法 由一组矩形组成,这些矩形反映类在给定数据中出现的技术或频率大型数据库中的关联规则挖掘什么是关联规则挖掘? 关联规则挖掘: 从事
47、务数据库,关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。 应用: 购物篮分析、分类设计、捆绑销售和亏本销售分析关联规则:基本概念 给定: 项的集合: I=i1,i2,.,in 任务相关数据 D 是数据库事务的集合,每个事务 T 则是项的集合,使得 每个事务由事务标识符 TID 标识; A,B 为两个项集,事务 T 包含 A 当且仅当 则关联规则是如下蕴涵式: 其中 并且 ,规则 在事务集 D 中成立,并且具有支持度 s 和置信度 c关联规则度量:支持度和置信度 对所有满足最小支持度和置信度的关联规则 支持度 s 是指事务集 D 中包含 的百分比 置信度 c 是指 D 中包含 A 的事务同时也包含 B的百分比 假设最小支持度为 50%,最小置信度为 50%,则有如下关联规则 A C (50%, 66.6%) C A (50%, 100%) 大型数据库关联规则挖掘过程 基本概念 k项集 :包含 k 个项的集合 牛奶,面包,黄油是个 3项集 项集的频率是指包含项集的事务数频繁项集: 如果项集的频率大于(最小支持度D 中的事务总数) ,则称该项集为频繁项集 大型数据库中的关联规则挖掘包含两个过程: 找出所有频繁项集 大部分的计算都集中在这一步由频繁项集产生强关联规则:即满足最小支持度和最小置信度的规则关联规则挖掘一个线