1、中国科教创新导刊2013 NO.10China Education Innovation Herald65中国科教创新导刊 China Education Innovation Herald理 论 前 沿在大学生数学建模和实际生活中 ,大量的信息都直接或者间接的和数据建立密切的联系 ,我们要从这些数据中寻找所关心的问题答案 ,往往我们是通过建立适当的数据模型来完成的。而对数据预处理中缺失数据的处理是我们建立适当数据模型必不可少的前提条件 ,如果不考虑缺失数据 ,将严重影响结果的稳定性。对数据中有明显或明显不合理的数据以及漏填的数据都可看做缺失数据。对缺失数据进行处理时 ,必须了解缺失数据出现出
2、现的原因 ,这是决定所选择的缺失数据处理方法是否合适的一个关键因素 ,此外还有变量的分布和范围也是决定所选的缺失数据处理方法是否合适的另一个关键因素。当数据缺失的原因已知时 ,在数据分析的过程中加以正确考虑 ,产生的分析结果才不会产生较大的偏倚。当然 ,如果缺失数据的产生的原因不明确时 ,那么我们就只能在对数据作合理猜测基础上对数据进行分析。对于缺失数据的类型上来说可以为两类 :一类是缺失值 ;另一类是异常值。1 缺失值1 . 1 缺失值出现的主要原因缺失值产生的原因多种多样 ,主要有设备和人为两类因素 ,比如数据存储的失败 ,存储器损坏 ,或者由于计算机故障导致某时间段数据未能收集 ,也有在
3、收集数据过程中没有采集到相关的数据和数据录入人员漏录了数据等等。1.2 缺失值检测在 SPSS中 ,默认缺失值通常以黑点表示 ,只需要对数据进行升序 (或降序 )排列 ,通过快速浏览数据列表便可以发现以黑点表示的缺失值集中在一起 ,记录下缺失值所在的变量即数据的列 ,便于后面的处理 ;也可以通过分析窗口中的描述统计功能 ,统计出每个变量有无缺失值以及有效值和缺失值的个数。1. 3 缺失值的处理(1 )剔除缺失值的观测单位 ,即删除SPSS数据列表中缺失值所在的数据行。如果数据缺失问题可以通过简单的删除小部分样本来达到目的 ,那么这种方法是有效的 ,在 Spss的统计分析程序中 ,打开Optio
4、ns按钮 ,便会出现缺失值的处理栏(missing values)。通常有三个选项 :一是Exclude cases listwise,即按列表排除个案 ,表示对所有的分析过程剔除分组变量和因变量中所有带有缺失值的观测量数据 ;二是 Exclude cases pairwise,即按对排除个案 ,同时剔除带缺失值的观测量及与缺失值有成对关系的观测量。在当前分析过程中用到的变量数据中剔除带有缺失值的观测量数据 ,在其他分析过程中可能包含缺失值 ;三是 Replace with mean,即使用均值替换 ,将分组变量的缺失值单独分为一组 ,在输出频数表的同时输出缺失值。(2)对缺失值进行估后计填补
5、。在数据分析中 ,面对大量的数据 ,因为一个属性值的缺失而放弃大量的其它属性值 ,这种删除是对信息的极大浪费 ,所以产生了对缺失值进行估计后填补的思想 ,主要有两种插补方法。第一 ,在建模过程中 ,通过对问题的深入分析 ,查阅相关的文献报道凭借知识经验进行合理估计。第二 ,是通过 SPSS提供的替换缺失值选项进行估计 ,对于定距型数据采用均值 ,对于非定距型采用众数来补齐缺失值 ,通常有如下五种替代方法 :一是 series mean,即以列的算术平均值进行替代 ;二是 meanof nearly point,即以缺失值邻近点的算术平均值进行替代 ;三是 Median of nearlypoi
6、nt,即以缺失值临近点的中位数替代 ;四是 linear interpolation即根据缺失值前后的两个观察值进行线性内插法估计和替代 ;五是 linear trend atpoint,即用线形回归法进行估计和替代。(3)缺失值分析过程中填补。在 SPSS的分析工具栏下有针对缺失值的分析窗口 ,该窗口主要用于对缺失值的估计 ,主要方法有四种 :第一 ,是 Listwise,即按列表状态删除 ,缺失值较少 ,样本够大 ,把缺失的样本完全去除 ,如果任何一个变量含有缺失数据 ,把相应的个案 ,从分析中剔除 ,对缺失值占的比例小 ,十分有效 ,到底多少 ,比例合适?有局限性 ,以减少样本样本量来换
7、取信息的完备 ,会造成资源的大量浪费 ,严重影响到数据的客观性和结果的正确性。第二 ,是 Pairwise,即配对状态 ,其中一条记录中有一变量缺失 ,将在统计时删除该条信息 ,但在进行其它统计量时不受影响。第三 ,是 EM,即期望最大化 ,可用于缺失较多 ,有效样本足够保证其服从正态分布 ,该估计方法是通过观测数据的边际分布对未知参数进行极大似然估计 ,该方法比删除个案和均值插补更具有吸引力 ,但缺点是只适用于大样本。第四 ,是 Regression,即回归 ,没有足够的样本的话 ,缺失值较少 ,缺失因素比较明确 ,选中的连续性变量为自变量 ,缺失的变量为因变量 ,考虑残差 ,回归替换法首先
8、需要选择若干个预测缺失值的自变量 ,然后建立回归方程估计缺失值。即用缺失数据的条件期望对缺失值进行替换 ,与之前的几种方法相比 ,该方法利用了数据库中尽量多的信息 ,其弊端为一是容易忽视随机误差 ,在缺失信息增多会变得更加严重 ;二是必须假设缺失值所在的变量与其他变量存在线性关系 ,但实际上这种关系并不一定存在。2 异常值2 . 1 异常值出现的原因异常值是指各变量中与整体数据相距太远的极值 ,由于它的夸大作用 ,常常会歪曲统计结果 ,导致分析结果犯错误 ,而这类数据的出现主要来源于在数据输入的过程中输入不正确 ,或在不同的数据格式之间进行转换时 ,错误的将代号当成了实际观作者简介 :孙瑜玲
9、(1981,5 ),讲师 ,四川信息职业技术学院 ,邮编 628017。数学建模中的缺失数据孙瑜玲(四川信息职业技术学院 四川广元 6 2 8 0 1 7 )摘 要 :高职院校参加全国大学生数学建模的学校越来越多 ,学生也在不断的增加 ,为了能够让学习数学建模的学生能更全面的把握处理缺失数据的方式方法 ,有必要对缺失数据的产生、检测及处理做一个梳理。而本文是基于 SPSS软件对缺失数据的检测和处理进行介绍。关键词 :缺失数据 缺失值 异常值 检测 处理中图分类号 : G 6 4 文献标识码 : A 文章编号 :1673-9795(2013)04(a)-0065-02(下转 6 7 页 )中国科
10、教创新导刊2013 NO.10China Education Innovation Herald67中国科教创新导刊 China Education Innovation Herald理 论 前 沿的 ,也是学生今后工作中解决实际问题的基础理论知识。因此 ,在教学过程中选择合适的案例 ,在讲述速冻和缓慢冻结时 ,选择鳕鱼冻结的实例 ,采用多媒体方式 ,图文并茂地向学生进行案例分析 ,让学生看到食品工艺学这门课程在解决实际问题中的作用 ,深刻体会到用科学知识解决实际问题的妙处。(3)提问式教学。“学起于思 ,思源于疑 ,疑则又发探索” ,爱因斯坦曾说 :“提出一个问题比解决一个问题更重要” ,把
11、质疑、释疑作为教学过程中重要的组成部分 ,抓住教学的疑点、难点 ,设计具有针对性和启发性的问题。如针对食品的冻结点 ,提出“食品的冻结点比纯水的冻结点低还是高 ,为什么?”“在食品冻结过程中 ,冻结点有什么样的变化?”等问题来启发学生思索、鼓励学生探讨。在探索问题时 ,留给学生充分的时间 ,以利于开放学生的思维。使教学过程真正成为学生学习的过程 ,以思维教学代替单纯的认知教学。4.2 学法(1)坚持以学生为主体 ,为了避免学生被动听课 ,要求学生进行课前预习 ,在教学过程中 ,先提出问题再讲授 ,让学生自主探究课程内容 ,带着问题听课 ;(2)在教学过程中 ,知识点的应用部分及总结归纳部分由学
12、生小组分析讨论来完成 ,让他们在学习知识的同时提高讲述交流能力 ;(3)并在课程结束时布置相关思考题 ,让学生查阅相关资料 ,丰富专业知识。5 教学过程课程在多媒体教室进行 ,所需的教具是电脑、投影仪、黑板。通过多媒体课件将抽象复杂的冻结理论用生动的图像表象出来 ,使学生可以直观地理解教学内容 ,激发学习兴趣。5 . 1 复习提问导人新课 ( 5 分钟 )通过提问复习前面的知识点 ,引出这节课程的主要内容。根据温度不同低温保藏分为冷藏和冻藏 ,从人类用冰雪天然保藏食品到制冷机的问世介绍冻藏的发展过程 ,以图片的方式展示冻藏食品 ,引出食品冻藏的过程。提问的问题有两个 :(1)什么是食品的低温保
13、藏? (2)举例生活中接触的冻结食品?5. 2 课程正体 ( 30 分钟 )通过讲练结合的方式完成对食品冻结的基本概念 ;食品冻结的一般规律 ;食品冻结速率的表示方法 ;食品冻结速率对食品品质的影响四个部分的学习。第一阶段 :食品冻结的基本概念是学习食品冻结过程的基础。食品冻结的基本概念包括食品的冰点 (冻结点 )、过冷现象、低共熔点 (共晶点 )、水分冻结量。分别以实际生活中的实例提出问题 ,引出所学知识点 ,讲授知识点 ,再应用所学知识分析解决实际生产中的问题。具体教学实施过程见表 1。第二阶段 :通过冻结曲线来讲述冻结的过程。首先让学生观察纯水冻结曲线 ,应用所学的食品冻结的基本概念的知
14、识在冻结曲线上找到冻结点、过冷点及共晶点。以纯水的冻结曲线分析冻结的过程及热量变化 ;其次引出食品的冻结曲线 ,重点讲述食品冻结过程与纯水冻结过程的差异。以引导的方式让学生自主总结出食品冻结的一般规律。具体教学实施过程见表 2。提问的问题 :食品冻结过程的关键阶段?为什么?第三阶段 :从冻结时间和冻结食品的品质考虑 ,速冻食品比较受消费者的喜爱。提出如何来衡量食品冻结速度的问题?以降温的时间区分 ,以冰层 (-5 )推进的距离区分 ,以距离与时间之比区分三种方法来衡量食品冻结的速度。第四阶段 :在讲述食品冻结速率对食品品质的影响时 ,选择鳕鱼冻结的实例 ,采用多媒体方式向学生进行案例分析 ,让
15、学生看到食品工艺学这门课程在解决实际问题中的作用。具体教学实施过程见表 3。提问的问题为什么快速冻结与缓慢冻结冰晶体大小不同 ,对食品品质有什么影响?5 .3 尾声部分 ( 5 分钟 )对本节课进行总结及布置作业。6 教学效果通过这种教学方法 ,教师更容易调动学生上课的积极性 ,提高学生分析和解决实际问题的能力 ;也更容易突破食品工艺学原理教学的重点、难点 ,提高了课堂效率 ,增强学生对食品专业的热情。参考文献1 刘重斌 ,闵顺琴 ,郭益民高等医学院校教研室普及“说课”的实践探讨 J医学教育探索 ,20l0(10):46-472 李春玲 ,张晓军 .说课在机械制图中的应用 J机械管理开发 ,2
16、012,128(4):1 8 5 - 1 8 6 .3 姜小军 .高校教师说课技巧刍议 J教育与职业 ,2012,715(3):176-177.4 张珊珊 .说课 :提高医学青年教师教学素质的重要途径 J中国科教创新导刊 ,2012(11):139.测值 ,以及在数据采集过程中 ,由于被采集者对问题的误解等因素 ,而得到不在该属性值范围内的数据。2. 2 异常值的检测在 SPSS中 ,我们可以对数据进行升序(或降序 )排列 ,通过快速浏览 ,发现那些明显大于或者小于该属性值的数据 ,也可以用散点图、箱图 (凡是与四分位数值的距离超过 1.5倍四分位数间距的都会被定义为异常值 ,在输出的图形中会
17、用记号标示 )、Q-Q图 (当数据符合指定分布时 ,Q-Q图中各点近似呈一条直线等检测有无极端值 )等进行异常值的检测。2 .3 减少异常值方法数学建模中不可能将数据逐一进行核查 ,因此我们可在合理分析的情况下 ,查阅相关文献 ,根据经验估计是减少异常值的一种途径 ,同时也可以借助于软件解决 ,尽量减少异常值对模型的影响 ,通过上面的检查方法检测出来的异常值在 SPSS中通常有如下四种处理方式 :第一 ,是将异常值在变量视图中进行定义 ,可以定义三个离散型的数值作为缺失值 ,也可以定义一个连续性的范围再加上一个离散性的数值作为缺失值。第二 ,是根据检测的异常值 ,在数据工具栏中有选择个案窗口
18、,采用设置条件的方式将异常值排除在外。第三 ,是对异常值进行估计插补 ,方法与前面的缺失值处理方法相同。第四 ,是将原始数据转换成标准 Z分数 ,将范围在 -2,2以外的数据作为缺失值考虑。对于 SPSS而言 ,对于缺失数据的检测 ,在不同的分析功能中也有专门的探测方法 ,比如在回归分析中 ,对于解释变量能用杠杆值、库克距离以及标准化回归系数的变化和标准化预测值的变化进行探测 ,对于被解释变量中能用标准化残差、学生化残差以及剔除残差进行探测等等。对于不同分析功能中的缺失数据的检测及其处理就不再一一讨论。参考文献1 胡红晓,谢佳,韩冰缺失值处理方法比较研究 J商场现代化 ,2007(15): 359-3602 薛薇 SPSS的数据分析北京:中国人民大学出版社, 2006.(上接 6 5 页 )