收藏 分享(赏)

异常点判断-箱线图.pdf

上传人:HR专家 文档编号:5895821 上传时间:2019-03-20 格式:PDF 页数:12 大小:351.91KB
下载 相关 举报
异常点判断-箱线图.pdf_第1页
第1页 / 共12页
异常点判断-箱线图.pdf_第2页
第2页 / 共12页
异常点判断-箱线图.pdf_第3页
第3页 / 共12页
异常点判断-箱线图.pdf_第4页
第4页 / 共12页
异常点判断-箱线图.pdf_第5页
第5页 / 共12页
点击查看更多>>
资源描述

1、统计小知识分享 异常点判断 (箱线图法 )-felixsong为什么需要检测异常值数据清洗需要 异常值会影响我们的统计,均值、方差等受异常值影响大,例如平均工资。发现问题的契机 异常值往往意味着某些问题,分析其产生的原因,是分析问题的重要入口。运营监控和质量控制 DAU等指标异常监控、数据质控等用什么方法检测异常值箱线图( Boxplot、 Box-whisker Plot)利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数 与最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有有对称 性,分布的分散程度等信息,特别可以用于对几个样本的比较。为啥是 1.5?箱线图示例为啥

2、不对称?箱线图的作用直观明了地识别数据批中的异常值箱线图为我们提供了识别异常值的一个标准 (经验值 ):异常值被定义为小于Q1 1.5IQR或大于 Q3 1.5IQR的值。利用箱线图判断数据批的偏态和尾重利用箱线图比较几批数据的形状方法相对简单,用 R语言、 Excel等工具可以轻松实现。 常用的基于正态分布的 3 法则或 z分数方法 需要数据服从 正态分布 箱线图对数据作任何限制性要求,它只是真实直观地表现数据形状的本来面貌 。 箱线图 稳健性较好, 识别异常值的结果比较客观。为什么 用 箱 线图 ?对称分布数据的箱线图非对称分布数据的箱线图箱 线 图分 析DAU附录:为什么是 1.5倍?1

3、.5倍是进过大量分析和经验积累起来的标准,有一点的参考意义。统计学中离群点微超出平均数 N 个标准差的范围的数值。这个数据并非随意而定,其中运用的是统计学知识。当一组数据为对称分布时: 约有 68%的数据在平均数 1个标准差的范围之内。约有 95%的数据在平均数 2个标准差的范围之内。约有 99%的数据在平均数 3个标准差的范围之内。当一组数据为不对称分布时:至少有 75%的数据落在平均数 2个标准差范围内。至少有 89%的数据落在平均数 3个标准差范围内。至少有 94%的数据落在平均数 4个标准差范围内。 众所周知,基于正态分布的 3 法则或 z分数方法是以假定数据服从正态分布为前提的,但实

4、际数据往往并不严格服从正态分布。 它们判断异常值的标准是以计算数据批的均值和标准差为基础的,而均值和标准差的稳健性极小,异常值本身会对它们产生较大 影响,这样产生的异常值个数不会多于总数 0.7%。显然,应用这种方法于非正态分布数据中判断异常值,其有效性是有限的。 箱线图的绘制依靠实际数据,不需要事先假定数据服从特定的分布形式,没有对数据作任何限制性要求,它只是真实直观地表现数 据形状的本来面貌; 箱线图判断异常值的标准以四分位数和四分位距为基础,四分位数具有一定的稳健性,多达 25%的数据可以变得任意远而不会很大地扰动四分位数,所以异常值不能对这个标准施加影响,箱线图识别异常值的结果比较客观。 方法相对简单,用 R语言、 Excel等工具可以轻松实现。附录:为什么 用 箱 线图 ?

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 经营企划

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报