ImageVerifierCode 换一换
格式:PDF , 页数:12 ,大小:351.91KB ,
资源ID:5895821      下载积分:10 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.docduoduo.com/d-5895821.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(异常点判断-箱线图.pdf)为本站会员(HR专家)主动上传,道客多多仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知道客多多(发送邮件至docduoduo@163.com或直接QQ联系客服),我们立即给予删除!

异常点判断-箱线图.pdf

1、统计小知识分享 异常点判断 (箱线图法 )-felixsong为什么需要检测异常值数据清洗需要 异常值会影响我们的统计,均值、方差等受异常值影响大,例如平均工资。发现问题的契机 异常值往往意味着某些问题,分析其产生的原因,是分析问题的重要入口。运营监控和质量控制 DAU等指标异常监控、数据质控等用什么方法检测异常值箱线图( Boxplot、 Box-whisker Plot)利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数 与最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有有对称 性,分布的分散程度等信息,特别可以用于对几个样本的比较。为啥是 1.5?箱线图示例为啥

2、不对称?箱线图的作用直观明了地识别数据批中的异常值箱线图为我们提供了识别异常值的一个标准 (经验值 ):异常值被定义为小于Q1 1.5IQR或大于 Q3 1.5IQR的值。利用箱线图判断数据批的偏态和尾重利用箱线图比较几批数据的形状方法相对简单,用 R语言、 Excel等工具可以轻松实现。 常用的基于正态分布的 3 法则或 z分数方法 需要数据服从 正态分布 箱线图对数据作任何限制性要求,它只是真实直观地表现数据形状的本来面貌 。 箱线图 稳健性较好, 识别异常值的结果比较客观。为什么 用 箱 线图 ?对称分布数据的箱线图非对称分布数据的箱线图箱 线 图分 析DAU附录:为什么是 1.5倍?1

3、.5倍是进过大量分析和经验积累起来的标准,有一点的参考意义。统计学中离群点微超出平均数 N 个标准差的范围的数值。这个数据并非随意而定,其中运用的是统计学知识。当一组数据为对称分布时: 约有 68%的数据在平均数 1个标准差的范围之内。约有 95%的数据在平均数 2个标准差的范围之内。约有 99%的数据在平均数 3个标准差的范围之内。当一组数据为不对称分布时:至少有 75%的数据落在平均数 2个标准差范围内。至少有 89%的数据落在平均数 3个标准差范围内。至少有 94%的数据落在平均数 4个标准差范围内。 众所周知,基于正态分布的 3 法则或 z分数方法是以假定数据服从正态分布为前提的,但实

4、际数据往往并不严格服从正态分布。 它们判断异常值的标准是以计算数据批的均值和标准差为基础的,而均值和标准差的稳健性极小,异常值本身会对它们产生较大 影响,这样产生的异常值个数不会多于总数 0.7%。显然,应用这种方法于非正态分布数据中判断异常值,其有效性是有限的。 箱线图的绘制依靠实际数据,不需要事先假定数据服从特定的分布形式,没有对数据作任何限制性要求,它只是真实直观地表现数 据形状的本来面貌; 箱线图判断异常值的标准以四分位数和四分位距为基础,四分位数具有一定的稳健性,多达 25%的数据可以变得任意远而不会很大地扰动四分位数,所以异常值不能对这个标准施加影响,箱线图识别异常值的结果比较客观。 方法相对简单,用 R语言、 Excel等工具可以轻松实现。附录:为什么 用 箱 线图 ?

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报