收藏 分享(赏)

实验二:数据的预处理.doc

上传人:HR专家 文档编号:7290532 上传时间:2019-05-13 格式:DOC 页数:8 大小:189KB
下载 相关 举报
实验二:数据的预处理.doc_第1页
第1页 / 共8页
实验二:数据的预处理.doc_第2页
第2页 / 共8页
实验二:数据的预处理.doc_第3页
第3页 / 共8页
实验二:数据的预处理.doc_第4页
第4页 / 共8页
实验二:数据的预处理.doc_第5页
第5页 / 共8页
点击查看更多>>
资源描述

1、衡阳师范学院数学与计算科学系学 生 实 验 报 告实验课程名称: 数学建模(2) 系别: 数计系 年级: 2012 专业和班级:数学 2 班学 生 姓 名 学 号 开 课 时 间: 2014 年 下 学 期每次试验得分 平均分 折合分 30%评阅人 阳志锋 评阅时间 2014 年 月 日实验二:数据的预处理2014-09-25 星期四一、 问题表述1、下面表格是某高校 15 个学院 09 级同一生源地新生的数学成绩抽样数据。(1)将各个学院新生的数学成绩合并(按列拉直),并检验数据的正态性;若数据非正态,请进行适当的正态化变换;(2)数据集中是否存在异常值?若存在异常值,请作适当的处理。学院学

2、生 1 2 3 4 5 6 7 8 9 10 11 12 13 14 151 81 60 85 71 76 73 72 56 73 62 73 71 52 69 852 69 71 83 91 66 52 77 63 63 78 57 72 49 72 573 76 64 28 62 73 70 62 62 89 84 64 37 85 52 834 74 72 69 77 70 53 80 79 90 60 83 70 76 71 725 45 64 64 58 59 91 44 74 72 75 87 69 55 60 896 67 50 63 82 82 59 71 48 66 74 7

3、2 80 78 66 827 86 75 68 76 74 43 86 34 69 72 66 58 66 87 598 74 61 64 63 70 64 59 81 72 59 62 48 77 69 789 67 84 59 69 91 81 81 57 58 80 75 68 67 72 5510 84 63 88 60 63 72 72 79 86 69 88 74 55 65 6611 75 71 79 59 89 30 69 63 57 62 62 72 49 65 7612 75 68 54 93 65 64 83 63 53 83 64 84 41 79 7113 62 51

4、 70 70 66 52 84 72 80 77 56 80 62 52 8714 73 52 63 76 90 73 79 67 68 73 83 95 45 70 9215 72 87 64 76 69 59 63 64 64 70 63 52 64 62 7716 61 56 76 79 72 78 66 65 73 68 70 53 46 58 5617 77 83 61 75 79 66 65 66 88 41 66 64 62 72 6718 75 80 70 88 51 62 47 78 74 68 55 46 53 67 6219 83 73 65 85 45 69 66 85

5、 77 62 72 76 36 81 6820 75 58 78 67 67 72 53 90 68 59 61 57 65 49 7321 88 76 73 76 43 66 72 91 67 49 69 65 26 59 7022 83 66 63 71 79 63 75 59 83 75 77 52 50 62 7223 68 90 82 78 61 84 65 70 59 96 73 97 50 60 7724 57 70 88 91 86 56 81 85 56 58 76 69 90 66 6225 78 77 53 81 68 64 77 54 79 74 64 69 69 80

6、 7026 88 85 68 75 74 47 65 71 76 59 78 93 48 71 7627 83 88 62 72 69 54 57 63 64 78 81 71 67 63 7828 79 60 73 79 67 39 52 54 49 70 71 63 68 88 6229 78 71 76 72 51 74 78 69 66 73 57 53 62 68 6830 66 64 85 58 68 48 69 73 68 85 60 59 87 58 45二、 实验过程与结果(含程序代码)(1)将各个学院新生的数学成绩合并(按列拉直),并检验数据的正态性;若数据非正态,请进行适

7、当的正态化变换:首先,将各个学院新生的数学成绩求和得以下数据:表一学院学生 1 2 3 4 5 6 7 8 9 10 11 12 13 14 151 81 60 85 71 76 73 72 56 73 62 73 71 52 69 852 69 71 83 91 66 52 77 63 63 78 57 72 49 72 573 76 64 28 62 73 70 62 62 89 84 64 37 85 52 834 74 72 69 77 70 53 80 79 90 60 83 70 76 71 725 45 64 64 58 59 91 44 74 72 75 87 69 55 60

8、 896 67 50 63 82 82 59 71 48 66 74 72 80 78 66 827 86 75 68 76 74 43 86 34 69 72 66 58 66 87 598 74 61 64 63 70 64 59 81 72 59 62 48 77 69 789 67 84 59 69 91 81 81 57 58 80 75 68 67 72 5510 84 63 88 60 63 72 72 79 86 69 88 74 55 65 6611 75 71 79 59 89 30 69 63 57 62 62 72 49 65 7612 75 68 54 93 65 6

9、4 83 63 53 83 64 84 41 79 7113 62 51 70 70 66 52 84 72 80 77 56 80 62 52 8714 73 52 63 76 90 73 79 67 68 73 83 95 45 70 9215 72 87 64 76 69 59 63 64 64 70 63 52 64 62 7716 61 56 76 79 72 78 66 65 73 68 70 53 46 58 5617 77 83 61 75 79 66 65 66 88 41 66 64 62 72 6718 75 80 70 88 51 62 47 78 74 68 55 4

10、6 53 67 6219 83 73 65 85 45 69 66 85 77 62 72 76 36 81 6820 75 58 78 67 67 72 53 90 68 59 61 57 65 49 7321 88 76 73 76 43 66 72 91 67 49 69 65 26 59 7022 83 66 63 71 79 63 75 59 83 75 77 52 50 62 7223 68 90 82 78 61 84 65 70 59 96 73 97 50 60 7724 57 70 88 91 86 56 81 85 56 58 76 69 90 66 6225 78 77

11、 53 81 68 64 77 54 79 74 64 69 69 80 7026 88 85 68 75 74 47 65 71 76 59 78 93 48 71 7627 83 88 62 72 69 54 57 63 64 78 81 71 67 63 7828 79 60 73 79 67 39 52 54 49 70 71 63 68 88 6229 78 71 76 72 51 74 78 69 66 73 57 53 62 68 6830 66 64 85 58 68 48 69 73 68 85 60 59 87 58 45和 2219 2090 2074 2230 2083

12、 1878 2070 2035 2107 2093 2085 2017 1800 2013 2135由于本题涉及的数据较多,我们可以首先将上述表格用 EXCEL 软件保存并且命名为“shumo.xls”,再将其置于 work 文件夹下,在 MATLAB 软件中使用 xlsread 命令可以读取 EXCEL 表格中的数据,这样就省去了输入大量数据的工作,然后用 MATLAB 软件中的normplot 函数判断数据的正态性,程序代码如下:clearclcx=xlsread(shumo);x=reshape(x,450,1);normplot(x)其中代码 x=reshape(x,450,1)达到将

13、各个学院新生的数学成绩合并(按列拉直)的目的。以上程序代码得出下图:40 50 60 70 80 900.0010.0030.01 0.02 0.05 0.10 0.25 0.50 0.75 0.90 0.95 0.98 0.99 0.9970.999DataProbabilityNormal Probability Plot图一由上图可以看出,这些点并没有近似地在一条直线附近,其首尾部分有所偏离。因此,数据不符合正态分布。下面用幂变换将数据进行正态化变换,经典幂变换公式为: 0,lnxy改进的幂变换公式为: 0,ln1xy下面对幂变换进行分析。幂变换后 y 具有不同于 x 的分布,其中幂指数

14、 按下列方法估计,即求 ,使得下面的 最大:)(Lnjiinj xy121ll2)()(其中 njixy1求解过程的 MATLAB 的程序为:function lamda,y=lamda(x) x=load(shumo.txt);x=reshape(x,450,1);m,n=size(x);if m=1 return end if n=1 n=m; end f=(s)(-(-0.5*n*log(var(x.s-1)/s)+(s-1)*n*mean(log(x);%f 表示经验函数的相反数 ezplot(f); s0=input(请输入极值所在区间的左端点:);%输入 0s1=input(请输入

15、极值所在区间的右断点:);%输入 100 lamda=fminbnd(f, s0, s1);%利用该函数找到固定区间内单变量函数最小值y=(x.lamda-1)./lamda; figure(2); %参数 lamda 的估计函数 图像)(Lqqplot(y); title(yQ-Q 图);-6 -4 -2 0 2 4 6110012001300140015001600170018001900s(-(-0.5 n log(var(x.s-1)/s)+(s-1) n mean(log(x)图二 估计函数 图像)(L-4 -3 -2 -1 0 1 2 3 450100150200250300350

16、400Standard Normal QuantilesQuantilesof Input SampleyQ-Q图图三 正态变换后的 Q-Q 图(2)数据集中是否存在异常值?若存在异常值,请作适当的处理:到目前为止,异常数据尚没有一个被普遍采纳的定义。这里引用 Hawkins 对其的定义:异常数据是在数据集中与众不同的数据,使人怀疑这些数据并非随机偏差而产生,而是产生于完全不同的机制。常用的异常值检验方法有 准则。即设随机变量服从正态分布,其标准差为 ,3 准则是建立在正态分布的等精度重复测量基础上而造成奇异数据的干扰或噪声难以满3足正态分布。如果一组测量数据中某个测量值的残余误差的绝对值符合

17、下式: 3|X那么,该测量值为异常值。用 MATLAB 程序根据以上方法找出异常值,程序代码如下:x=xlsread(shumo);x=reshape(x,450,1);%将数据排列成一行u=mean(x);a=std(x);p=u-3*a;q=u+3*a;B=;for i=1:450if x(i)=qB= x(i)endend根据以上代码运行结果可知 28,30,26 是异常值数据(在表一中标出)。下面使用均值替换法来处理异常值,这种方法将变量的属性分为数值型和非数值型来分别进行处理。如果缺失值是数值型的,就根据该变量在其他所有对象的取值的平均值来填充该缺失的变量值;如果缺失值是非数值型的,就根据统计学中的众数原理,用该变量在其他所有对象的取值次数最多的值来补齐该缺失的变量值。这里的变量是数值型。这种方法是一种简便、快速的缺失数据处理方法。使用均值替换法插补缺失数据,对该变量的均值估计不会产生影响,但会造成变量的方差和标准差变小。均值替换法公式为: axijj301在本题中,由于异常值为 3 个,分别位于 3,6,13 列,所以这里的 j 分别取 3,6,13,这三列的和分别为 2074,1878,1800(见表一)。每一列有 30 个数据,因而 a 取 30。代入以上数据知:28 应替换成 69,30 应替换成 63,26 应替换成 60。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报