1、LOGO 大数据 聚 类分析 yif 主要内容 聚类分析 1 孤立点挖掘 2 聚类算法 -K-MEANS 3 总结 4 什么是聚类分析? 聚类(簇):数据对象的集合 在同一个聚类(簇)中的对象彼此 相似 不同簇中的对象则相异 聚类分析 将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程 聚类是一种无指导的学习:没有预定义的类编号 聚类分析的数据挖掘功能 作为一个独立的工具来获得数据分布的情况 作为其他算法(如:特征和分类)的预处理步骤 聚类分析的典型应用 模式识别 人脸识别 空间数据分析 在 GIS系统中,对相似区域进行聚类,产生主题地图 检测空间聚类,并给出他们在空间数据挖掘中的解
2、释 图像处理 万维网 对 WEB上的文档进行分类 对 WEB日志的数据进行聚类, 以 发现相同的用户访问模式 聚类分析应用实例 市场营销 土地使用 保险业 城市规划 帮市场分析人员从客户基本库中发现不同的客户群,从而可以对不同的客户群采用不同的营销策略。 在地球监测数据库中,发现相同的土地使用区域。 发现汽车保险中,索赔率较高的客户群。 根据房子的类型 /价值和地理位置对其进行分组。 地震研究 将观测到的震中点沿板块断裂进行聚类,得出地震高危区。 孤立点挖掘 1 什么是孤立点 一个数据集与其他数据有着显著区别的数据对象的集合。 例如:运动员:Michael Jordon ,舒马赫,布勃卡 2
3、孤立点产生原因 度量或执行错误 数据变异的结果 3 孤立点挖掘 给定一个 N个数据对象,以及预期的孤立点数目K与剩余的数据有着显著差异的 头 K个数据对象 。 4 应用 信用卡欺骗检测 移动电话欺骗检测 客户划分 医疗分析(异常) 基于统计的孤立点检测 统计的方法对于给定的数据集合假定了一个分布或概率模型(例如正态分布)。 使用依赖于以下参数的不一致性检(discordancy test) 数据分布 分布参数( e.g.均值或方差 预期的孤立点数 缺点: 绝大多数检验是针对个体属性的,而数据挖掘要求在多维空间中发现孤立点。 大部分情况下,数据分布可能是未知的。 基于距离的孤立点检测 为了解决统
4、计学方法带来的一些限制,引入了基于距离的孤立点检测 在不知道数据分布的情况下对数据进行多维分析 基于距离的孤立点:即 DB(p,d),如果数据集合S中的对象至少有 p部分与对象 o的距离大于 d,则对象 o就是 DB(p,d)。 挖掘基于距离的孤立点的高效算法: 基于索引的算法 嵌套 循环算法 基于单元的算法 基于偏离的孤立点检测 通过检查一组对象的的主要特征来确定孤立点 跟主要特征的 描述 相“偏离”的对象被认为是孤立点 两种基于偏离的孤立点探测技术 序列异常技术 模仿人类从一系列推测类似的对象识别异常对象的方式 OLAP 数据立方体技术 在大规模的多维数据中采用数据立方体来确定异常区域。如
5、果一个立方体的单元值显著的不同于根据统计模型得到的期望值,则改单元值被认为是一个异常,并用可视化技术表示。 聚类算法 目前存在大量的聚类算法,算法的选择取决于数据的类型、聚类的目的和具体的应用。大体上,主要的聚类算法分为这几大类。 聚类 算法的衡量标准 不同属性 可伸缩性 任意形状 记录顺序 基于约束 高维度 衡量聚类算法的优劣 领域最小化 解释性 -可用性 K-Means聚类原理 为中心向量 C1, C2, , Cn初始化 K个种子(即选择 K个类的初始中心) 分组 将样本分配给距离其最近的中心向量 由这些样本构造不相交的聚类 确定中心 用各个聚类的中心向量作为新的中心 重复分组和确定中心的
6、步骤,直至算法收敛。 K-Means算法步骤 步骤一:将所有对象随机分配到 k个非空的簇中。 步骤二:计算每个簇的平均值,并用该平均值代表相应的值。 步骤三:根据每个对象与各个簇中心的距离,分配给最近的簇。 步骤四:转到步骤二,重新计算每个簇的平均值。这个过程不断重复直到满足某个准则函数或者终止条件。终止(收敛)条件可以是以下任意一个:没有(或者最小数目)数据点被重新分配给不同的聚类;没有(或者最小数目)聚类中心再发生变化;误差平方和( SSE)局部最小。 其中, k表示需要聚集的类的数目, Cj表示第 j个聚类, mj表示聚类 Cj的聚类中心, dist(x,mj)表示数据点 x和聚类中心
7、mj之间的距离。利用该准则可以使所生成的簇尽可能的紧凑和独立。 SSE= dist(x,mj) K-Means算法 特点: K-means算法的每个簇都是使用对象的平均值来表示。 原始 K-Means算法的缺陷: 结果好坏依赖于对初始聚类中心的选择 容易陷入局部最优解 对 K值的选择没有准则可依循 对异常数据较为敏感 只能处理数值属性的数据 K-Means算法 K-Means的变体 Bradley和 Fayyad等:降低对中心的依赖,能适用于大规模数据集 Dhillon等:调整迭代过程中重新计算中心方法,提高性能 Zhang等:权值软分配调整迭代优化过程 Sarafis:将遗传算法应用于目标函数构建中 Berkh in等:应用扩展到了分布式聚类 还有:采用图论的划分思想,平衡聚类结果,将原始算法中的目标函数对应于一个各向同性的高斯混合模型 1. 算法快速,简单。 2. 对大数据集有较高的效率并且是可伸缩的。 3. 时间复杂度近于线性,而且适合挖掘大规模数据集。 K-Means 算法的优缺点 1. 在 K-means算法中K是事先给定的,这个 K的选定是难以估计的。 2. 初始聚类中心的选择对聚类结果有较大的影响。 3. 当数据量非常大时,算法的时间开销是非常大的。 K-Means算法 总结 。 。 内容 来源于网络,个人整理。 LOGO