1、14. 缺失值及缺失模式 目录:一. 什么是缺失值?二. 识别缺失值三. 缺失模式及处理办法四判断缺失模式正文:一、什么是缺失值?1. 缺失值缺失值是任何数据集中经常出现的问题,无回答、录入错误等调查中常会出现的现象都会导致缺失数据。缺失值通常会用一些特殊符号进行标记,比如 9999、1990 年 1 月 1 日,或者是“*”、“?”、“#”、“$”等符号。还有一种数值缺失情况,是统计的时间窗口并非对所有数据都适合。例如,需要“客户近 6 个月内的最大存款余额”,对于那些建立账户尚不满 6 个月的客户来说,统计出来的数值与想要得到的就可能存在差距。缺失数据会影响分析工作的进行和统计工作的效率,
2、还会导致分析的偏差。数据使用者、分析者往往缺乏缺失值处理方面的知识,仅仅对数据进行简单删除或插补会影响数据规模和数据结构,进而影响分析结果。一般来说,对缺失值的填充方法,最好是先判断其缺失模式,再建立一些适当模型,根据数据的分布来填充一个更恰当的数值。R 语言中,缺失值用 NA 表示。2. 缺失值的产生原因(1) 有些信息暂时无法获取(2) 有些信息是被遗漏的(3) 有些对象的某个或某些属性是不可用的(4) 有些信息(被认为)是不重要的(5) 获取这些信息的代价太大(6) 系统实时性能要求较高3. NA 与 NULL 区别:NA 表示数据集中的该数据遗失、不存在。在针对具有 NA 的数据集进行
3、函数操作的时候,该 NA 不会被直接剔除。如x0) cor(y)NonD Dream Sleep Span GestNonD 1.00000000 0.90711474 0.48626454 0.01519577 -0.14182716Dream 0.90711474 1.00000000 0.20370138 0.03752394 -0.12865350Sleep 0.48626454 0.20370138 1.00000000 -0.06896552 -0.06896552Span 0.01519577 0.03752394 -0.06896552 1.00000000 0.1982758
4、6Gest -0.14182716 -0.12865350 -0.06896552 0.19827586 1.00000000cor(sleep,y,use=“plete.obs“)NonD Dream Sleep Span GestBodyWgt 0.22682614 0.22259108 0.001684992 -0.05831706 -0.05396818BrainWgt 0.17945923 0.16321105 0.007859438 -0.07921370 -0.07332961NonD NA NA NA -0.04314514 -0.04553485Dream -0.188952
5、06 NA -0.188952059 0.11699247 0.22774685Sleep -0.08023157 -0.08023157 NA 0.09638044 0.03976464Span 0.08336361 0.05981377 0.005238852 NA -0.06527277Gest 0.20239201 0.05140232 0.159701523 -0.17495305 NAPred 0.04758438 -0.06834378 0.202462711 0.02313860 -0.20101655Exp 0.24546836 0.12740768 0.260772984 -0.19291879 -0.19291879Danger 0.06528387 -0.06724755 0.208883617 -0.06666498 -0.20443928Warning message:In cor(sleep, y, use = “plete.obs“) : 标准差为零主要参考文献:1 R 语言:缺失值处理,银河统计学,csdn 博客:http:/ 缺失值的处理,铁汉 1990 的博客,新浪博客:http:/