收藏 分享(赏)

数据挖掘导论-ch10.ppt

上传人:精品资料 文档编号:10608132 上传时间:2019-12-05 格式:PPT 页数:25 大小:332.50KB
下载 相关 举报
数据挖掘导论-ch10.ppt_第1页
第1页 / 共25页
数据挖掘导论-ch10.ppt_第2页
第2页 / 共25页
数据挖掘导论-ch10.ppt_第3页
第3页 / 共25页
数据挖掘导论-ch10.ppt_第4页
第4页 / 共25页
数据挖掘导论-ch10.ppt_第5页
第5页 / 共25页
点击查看更多>>
资源描述

1、数据挖掘 异常检测,第十章 数据挖掘简介,不规则/异常检测,什么是异常/离群值? 与其余数据相差很大的数据点集 异常/异常值检测问题的变体 给定数据库D,找到具有大于某个阈值t的异常分数的所有数据点x D 给定数据库D,找到具有前n个最大异常分数f(x)的所有数据点x D 给定包含大部分正常(但未标记)数据点的数据库D和测试点x,计算x相对于D的异常分数 应用: 信用卡欺诈检测,电信欺诈检测,网络入侵检测,故障检测,异常检测的重要性,臭氧消耗历史 1985年,三个研究人员(Farman,Gardinar和Shanklin)对英国南极调查收集的数据感到困惑,表明南极洲的臭氧水平比正常水平下降了1

2、0为什么Nimbus 7卫星(其上有用于记录臭氧水平的仪器)不记录类似的低臭氧浓度? 由卫星记录的臭氧浓度如此之低,他们被计算机程序作为异常值处理并丢弃!,Sources: http:/exploringdata.cqu.edu.au/ozone.html http:/www.epa.gov/ozone/science/hole/size.html,异常检测,挑战 数据中有多少离群值? 方法是无人监督的 验证可能相当具有挑战性(就像聚类) 在大海里捞针查找工作假设: 与数据中的“异常”观察(异常值/异常)相比,存在显着更多的“正常”观察结果,异常检测方案,一般步骤 构建“正常”行为的配置文件

3、配置文件可以是总体人口的模式或摘要统计 使用“正常”配置文件检测异常 异常是其特征与正常特征明显不同的观察结果异常检测?方案的类型 图形和统计 基于距离 基于模型,图形方法,箱形图(1-D),散点图(2-D),自旋图(3-D)缺点 耗时的 主观,凸体船体法,极值点被假定为异常值 使用凸包方法来检测极值如果异常值出现在数据的中间怎么办?,统计方法,假设描述数据分布的参数模型(例如,正态分布) 应用取决于的统计测试 数据分布 分布参数(例如,平均值,方差) 预期异常值的数量(置信限制),格鲁布斯测试,检测单变量数据中的异常值 假设数据来自正态分布 一次检测一个异常值,删除异常值,然后重复 H0:

4、数据中没有异常值 HA: 至少有一个离群值 Grubbs 检验统计量:拒绝H0如果:,基于统计的似然方法,假定数据集D包含来自两个概率分布的混合的样本: M (多数分布) A (异常分布) 一般方法: 最初,假设所有数据点属于M 令Lt(D)是D在时间t的对数似然性 对于属于M的每个点xt ,将其移动到A令Lt+1 (D)为新的对数似然。计算差值, = Lt(D) Lt+1 (D) 如果 c (某些阈值),则xt被声明为异常,并从M永久移动到A,基于统计的似然方法,数据分布,D = (1 ) M + A M 是从数据估计的概率分布 可以基于任何建模方法(朴素贝叶斯,最大熵等) 最初假设A是均匀

5、分布 在时间t的似然性:,统计方法的局限性,大多数测试是针对单个属性的在许多情况下,数据分布可能不是已知的对于高维数据,可能难以估计真实分布,基于距离的方法,数据表示为特征向量三大方法 基于最近邻 基于密度 基于集群,最近邻法,方法: 计算每对数据点之间的距离有各种方法来定义异常值: 在距离D内具有少于p个相邻点的数据点距第k个最近邻的距离最大的前n个数据点与k个最近邻居的平均距离最大的前n个数据点,低维投影中的离群值,在高维空间中,数据稀疏,接近度概念变得无意义 从基于接近度的定义的角度来看,每一点都是一个几乎同样好的异常值低维投影方法 如果在一些较低维投影中,点是异常值,则其存在于异常低密

6、度的局部区域中,低维投影中的离群值,将每个属性划分为个等深度区间 每个区间包含记录的分数f = 1/ 考虑通过从k个不同维度中选择网格范围创建的k维多维数据集 如果属性是独立的,我们期望区域包含记录的分数 fk 如果有N个点,我们可以测量立方体D的稀疏度:负稀疏性表示立方体包含的点数比预期的少,示例,N=100, = 5, f = 1/5 = 0.2, N f2 = 4,基于密度: LOF方法,对于每个点,计算其局部邻域的密度 计算样本p的局部离群值因子(LOF) ,作为样本p的密度与其最近邻的密度的比率的平均值 异常值是具有最大LOF值的点,在NN方法中, p2不被认为是异常值,而LOF方法

7、发现p1和p2都是异常值,基于聚类,基本思路: 将数据聚集成不同密度的组 在小集群中选择点作为候选离群值 计算候选点和非候选聚类之间的距离。 如果候选点远离所有其他非候选点,则它们是离群值,基本利率下跌,贝叶斯定理:推广:,基本利率下跌(Axelsson, 1999),基本利率下跌,即使测试是99肯定,你的疾病的几率是1/100,因为健康的人口比病人大得多,入侵检测中的基本速率下降,I: 侵入行为 I: 非侵入行为 A: 报警 A: 无报警检测率(真阳性率): P(A|I) 假报警率: P(A|I)目标是最大化两者 贝叶斯检测率, P(I|A) P(I|A),检测率与假报警率,假设:然后:如果P(I)非常低,则错误报警率变得更显着,检测率与假报警率,Axelsson: 我们需要非常低的误报率来实现合理的贝叶斯检测率,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报