1、期末考试成绩数据分析摘要:为学生尽力提供合理而有效的教学是学校一直以来所追求与重视的。在教学过程中,学校注重的是学生各学期以来对知识的掌握程度,并以成绩作为其衡量标准。成绩统计分析是高校考试质量管理的重要组成部分。通过对考试成绩的统计分析, 可以挖掘考试中蕴藏着的大量信息资料, 从而掌握教师的教学效果和学生的学习状况,本文的主要问题是分析几组成绩的显著性及相关性,通过对大量数据的统计分析,运用了单因素分析、层次分析、方差分析、分布检验等多种方法对成绩进行具体分析检测。问题一,本文首先对已给的数据进行处理,然后运用 spss 软件,根据数理统计的 K-S 检验原理证明得到的各班成绩均服从正态分布
2、,再根据单因素方差分析法,对各学生成绩作显著性检验,最后得到对于同一个课程,两个专业学生的成绩没有显著性差异;问题二与问题一类似,但考察的是数学水平,即是总的数学成绩的综合分析。本文先通过层次分析模型求得各门课程占总成绩的比重,得出两专业的总成绩,通过总成绩来判断数学水平高低。然后再运用问题一的单因素方差分析模型进行显著性检验,得到两个专业数学水平没有明显不同;问题三,我们统计得出一个包含着四门课程成绩的样本,通过对样本数据进行 spss 的“双变量相关性检验”得出线代和概率论的成绩与高数成绩正相关显著;问题四,本文先问题一、二、三进行总结,并利用 excel 整理并求出各专业各课程的方差和平
3、均值,最后总结得出看法:无论什么专业,高数在大学数学的学习中起着非常重要的作用,其它数学学科与它成正相关。关键词: spss K-S 检验 层次分析 单因素方差分析 相关性 excel一、 问题重述表一、表二分别是某高校 A 专业和 B 专业的高等数学上册、高等数学下册、线性代数、概率论与数理统计三门公共数学课程的期末考试成绩数据,请根据数据试着分析并解决以下几个问题:(1)针对每门课程分析,两个专业学生的分数是否有明显差异?(2)针对专业分析,两个专业学生的数学水平有无明显差异?(3)通过数据分析说明:高等数学成绩的优劣,是否影响线性代数、概率论与数理统计的得分情况?(4)根据你所作出的以上
4、分析,阐述你对于大学数学课程学习方面的看法。二、 问题的分析第一问针对每门课程要求分析不同专业学生成绩是否显著不同。可以先把专业当作变量,成绩当成因变量,利用 k-s 检验原理证明样本服从正态分布。再利用单因素方差分析判断不同专业各学科之间差异是否显著。以上分析采用spss 软件均可轻松处理。第二问和第一问原理基本一样,但要先对数据进行处理,要求数学水平,先要求出总的数学成绩,这需要用层次分析求出权重从而得出总成绩的表达式,再用第一问的单因素方差分析模型判断差异是否显著。第三问是判断高数 1,高数 2 与线代、概率论间成绩的相关性问题。首先我们要分别整合出四门学科的一组综合指标作为样本,然后通
5、过对样本数据进行 spss 的“双变量相关检验”来判断它们之间的相关性。第四问是分析归纳问题。先归纳前三问的分析结果,然后求出各科目的平均值,并用 excel 绘图观测各科目之间的关系,综合分析并提出看法及合理化建议。三、 模型假设与约定1、本题显著性水平 默认为 0.05。2、假设两个班学生的整体程度和基础差异不大。3、假设 0 分当缺考处理,有 0 分的那组数据没有处理意义。4、假设样本准确,处理做出的分析是接近实际,能够反映实际状况的。5、学生和学生之间,班级和班级之间的成绩是相互独立的,没有影响的。四、 模型的建立与求解第一问求解:第一问要求对每门课程进行分析不同专业学生成绩是否显著不
6、同。判断显著不同,可以通过先比较平均值,如果数值相近再比较方差。方差数值越大差异越显著,即平均偏离程度越大。首先,对已给的数据进行处理,筛选数据并剔除掉包含“0”成绩的每组数据,先根据 K-S 检验原理判断各班成绩是否服从正态分布,再根据单因素方差分析法,对各学生成绩作显著性检验。我们将专业看做因子,讨论专业对成绩高低的影响。A 和 B 看做因子所处的两个不同水平。而每个班的成绩即是试验的样本值。根据实际情况,学校评价相关成绩指标时均用平均成绩计算。我们在比较不同专业学生各科成绩是否显著性不同时,把每科该专业各班所有人的平均成绩作为该班的综合成绩。本文中处理数据均用平均值计算。首先证明样本是否
7、服从正态分布。可以运用 spss 的 1 样本 K-S 检验进行处理。先用 excel 表格得出各班平均成绩(结果保留小数点后两位)如下表:A 专业科目 高等数学 1 高等数学 2 线性代数 概率论1 班平均成绩 68.32 62.92 66.95 72.822 班平均成绩 65.60 66.91 71.29 75.063 班平均成绩 76.35 70.47 74.76 77.85B 专业科目 高等数学 1 高等数学 2 线性代数 概率论1 班平均成绩 71.41 69.15 71.15 68.322 班平均成绩 71.34 66.92 71.30 65.603 班平均成绩 76.10 74.
8、23 72.31 76.354 班平均成绩 67.97 70.14 71.69 71.14激活数据管理窗口,定义变量名 A 专业、B 专业,输入各专业学生的平均成绩,运行“分析 - 非参数检验 - 旧对话框 - 1 样本 K-S”运行结果如下:描述性统计量N 均值 标准差 极小值 极大值A 专业高数 1 3 70.0896 5.59162 65.60 76.35B 专业高数 1 4 71.7066 3.34149 67.97 76.10A 专业高数 2 3 66.7679 3.77796 62.92 70.47B 专业高数 2 4 70.1102 3.05901 66.92 74.23A 专业
9、线代 3 70.9993 3.91653 66.95 74.76B 专业线代 4 71.6133 .51631 71.15 72.31A 专业概率 3 75.2420 2.52366 72.82 77.85B 专业概率 4 75.1221 2.80608 72.45 79.08由上面两个表中可以看出,各科的 P 值(渐进显著性(双侧)均大于0.05,说明要检验的样本与正态分布没有显著性差异,即都服从正态分布。由于本题是要分析不同专业学生的同一门科目成绩是否有显著差异,因为只有专业这单一因素,所以本文采用建立单因素方差分析模型。单因素方差分析方法原理:在方差相等的假定下,要检验 n 个总体的均值
10、是否相等,须首先给定原假设和备择假设。原假设 :均值相等即 = =H012n备择假设 :均值不完全不相等1则可以应用 F 统计量进行方差检验:F= =bavwB2sWB该统计量服从分子自由度 a-1,分母自由度为 ab-a 的 F 分布。给定显著性水平 a,如果根据样本计算出的 F 统计量的值小于等于临界值,则说明原假设 不成立,总体均值不完全相等,差异并非仅b1aF, H0由随机因素引起。在spss中打开数据管理窗口,定义变量名学科、专业按顺序输入相应数值,专业定为数值1和2,然后运行 “分析 - 比较均值 - 单因素ANOVA ”进行单因素方差分析,得到如下结果:描述均值的 95% 置信区
11、间N 均值 标准差 标准误 下限 上限 极小值 极大值1 3 70.0896 5.59162 3.22832 56.1992 83.9799 65.60 76.352 4 71.6375 3.35164 1.67582 66.3043 76.9707 67.97 76.10高数 1总数 7 70.9741 4.08942 1.54566 67.1920 74.7562 65.60 76.35ANOVA平方和 df 均方 F 显著性组间 4.108 1 4.108 .213 .664组内 96.233 5 19.247高数 1总数 100.340 6组间 19.148 1 19.148 1.69
12、1 .250组内 56.619 5 11.324高数 2总数 75.767 6组间 .643 1 .643 .102 .762组内 31.428 5 6.286线代总数 32.071 6组间 .025 1 .025 .003 .955组内 36.331 5 7.266概率论总数 36.356 6由上表并结合F值表(附录表3)可以分析得出:高数1:因为F=0.213 0.05,即由方差分析得到两专业的高数1成绩无明显差异。高数2:因为F=1.691 0.05,即由方差分析得到两专业的高数2成绩无明显差异。线性代数:因为F=0.102 0.05,即由方差分析得到两专业的线性代数成绩无明显差异。概率
13、论:因为F=0.003 0.05,即由方差分析得到两专业的概率论成绩无明显差异。第二问求解:求解针对专业分析,两个专业学生的数学水平有无明显差异,这与第一问解法相似,不过要先求出数学水平的表达式,即要求出四科科目总成绩成绩。这需要构建一个层次模型求出各科在总成绩中的权重,然后再运用第一问的单因素方差分析模型来判断总成绩是否显著相关,将专业看做对成绩的影响因素进行分析。每个变量的样本值为每个专业各班成绩的平均值。层次分析模型首先建立层次分析模型:综合成绩高数1高数2线代概率论取 = ,用 matlab求得 的最大特征根和它对应的特征根向A123132A量(代码在附录中) ,结果如下图:即=4.0
14、458它所对应的特征根向量为 =(0.6664,0.6090,0.3619,0.2323) 。因为矩阵中,对于成对比较阵 A: 一致性指标 1rnCI( 为 A 的最大特征根,n 为矩阵 A 的阶数)随机一致性指标 RI一致性比率 C验证: ,此时 RI=0.9040.153CI,.7.RI所以该矩阵合适, 可以作为各门成绩在总成绩中占的比重。求得综合成绩 12340.64.069.10.2iiiiyxx单因素方差分析模型先用excel在表格中根据上面求出的方程计算出各专业的总成绩,然后在spss中打开数据管理窗口,定义变量名专业和总成绩,然后按顺序输入相应总成绩,专业依次定为数值1,2。然后
15、运行 “分析 - 比较均值 - 单因素ANOVA ”进行单因素方差分析,得到如下结果:描述总成绩均值的 95% 置信区间N 均值 标准差 标准误 下限 上限 极小值 极大值1 106 130.3520 17.66928 1.71619 126.9491 133.7549 86.53 178.322 148 134.5055 16.76724 1.37826 131.7817 137.2293 89.21 176.61总数 254 132.7721 17.23753 1.08158 130.6421 134.9022 86.53 178.32ANOVA总成绩平方和 df 均方 F 显著性组间 1
16、065.532 1 1065.532 3.623 .058组内 74109.015 252 294.083总数 75174.547 253由上表可以分析得出:因为F=3.623 0.05,即由方差分析得到总成绩即数学水平无明显差0H异。第三问求解:第三问是要求判断高数 1,高数 2 与线代、概率论间成绩的相关性问题。即要求高数 1,高数 2 与线代、概率论是否显著相关。将高数 1,高数 2,线代,概率论学科成绩看做四个总体,分别把 A、B 专业同学的成绩作为样本。然后分别对高数 1,高数 2 进行相关性分析。在spss中打开数据管理窗口,定义变量名A专业各科目和B专业各科目,输入各科目的成绩,
17、然后运行 “分析 - 相关 - 双变量 ”进行相关性分析,得到如下结果:描述性统计量均值 标准差 NA 专业高数 1 69.87 12.184 106A 专业高数 2 66.66 11.237 106A 专业线代 71.05 11.177 106A 专业概率论 75.26 12.171 106相关性A 专业高数 1 A 专业高数 2 A 专业线代 A 专业概率论Pearson 相关性 1 .538* .519* .404*显著性(双侧) .000 .000 .000A 专业高数 1N 106 106 106 106Pearson 相关性 .538* 1 .584* .439*显著性(双侧) .000 .000 .000A 专业高数 2N 106 106 106 106Pearson 相关性 .519* .584* 1 .582*显著性(双侧) .000 .000 .000A 专业线代N 106 106 106 106Pearson 相关性 .404* .439* .582* 1显著性(双侧) .000 .000 .000A 专业概率论N 106 106 106 106*. 在 .01 水平(双侧)上显著相关。