1、学生成绩分析摘要学生成绩作为反映学生学习的效率的一项重要的指标,对其进行统计与分析具有重要意义。本文对问题一,利用均值比较的t检验法和单因素方差分析法,对每个学期各个学生成绩的均值进行分析。在均值方差比较的显著性的差异的基础上又作出各个学期的直方图,结合图来分析学习成绩在不同的学期是否显著性不同。用t检验法对两班成绩的显著性分析并得出结论。问题二中,我们通过建立求Pearson(皮尔森)相关系数模型,并用spss求解,得出A类、B类、C类课程成绩有显著的相关性。对于问题三:在对数据进行分析处理后,利用决策论把为学生减负放在第一位,使得每个学期的课程在7门左右,在贪心算法的基础把要减少的课程在偏
2、差最小的15课和难度最大的15门中,得到去掉A4、C8、C13、B18,A9移到第三学期,C9移动第七学期方案。关键字:均值比较 独立样本t检验 单因素方差分析 Pearson(皮尔森)系数 方差 Levene检验一、问题重述某大学的某专业的课程分为三类:公共基础课,专业基础课和专业课(分别用A类、B类、C类表示),附表给出了两个班62名学生7个学期51门课的成绩,根据以下要求对数据进行分析并得出结论:问题一:分析该专业的学生的学习成绩在不同的学期是否显著性不同?两个班学生的学习成绩是否有显著性不同?问题二:分析A类、B类、C类课程是否显著性相关,若是,则分析A类课程成绩对B类课程成绩,B类课
3、程成绩对C类课程成绩的影响程度。问题三:为了给学生“减负”,学校决定减少不同学生成绩整体偏差不大的课程,请给出调整后开设的课程名称(用附表中的代码表示)。二、模型假设 1、所有的课程都同样重要,即课程的权重一样。2、所有的课程在相邻的学期是可调的。3、每个学期学生成绩的平均值服从正态分布。三、符号约定1、Ai、Bi、Cj表示课程标号(i=1.18,j=1.15);2、Vi表示第i学期的学生成绩的平均数组(i=1.7);3、班级1、班级2表示1班学生和2班学生;四、问题分析问题一:专业的学生的学习成绩是否显著性不同时,我们用每个学期的成绩平均值来代替每个学期的各门成绩,然后建立起单因素方差分析”
4、模型,两个班级的成绩是否显著性不同,让我们很容易想到建立配对t检验模型来进行求解。问题二:为了验证A类、B类、C类课程成绩是否显著性相关。我们引入 “单因素相关分析法”,用spss软件求出Pearson(皮尔森)相关系数,即可得出其相关性和任意两变量间的影响程度。问题三:由于要减少的课程要满足不同学生成绩偏差不大的要求,故想到用方差来表示偏差的大小。并对方差进行升序排序,挑选出前十五名课程,然后根据课程分数平均值和方差等因素从这十五门课程中挑出四门删除。五、模型的建立问题一:针对7个学期学习成绩是否显著性差异,建立“单因素方差分析”模型,对p值进行分析:统计学中的P值越小,越有理由认为对比事物
5、间存在差异。当P0.05称“不显著”;P=0.05称“显著”,P0.05,则接受齐次性假设,然后对两个班成绩进行t检验,分析p值,建立t检验模型如下:设总体X服从设正态分布N(,),Y服从设正态分布N(,),其中, 未知,他们未必相等。分别从整体中抽取样本(、,)和(、,)。我们引入一个新的随机变量Z=X-Y对应的一组子样值(、,),其中,i=1,n。X、Y的差异反映在上。若无显著差异,则应有=0 。因此问题归结为检验假设 :=0 , X、Y服从正态分布时,变量Z也服从正态分布,其中。 构造新统计量: 如果假设成立,根据抽样分布定理可知,统计量T服从自由度n-1的t分布,对于给定的 ,则由T分
6、布表可查得临界值 ,使如果算的T的值t落入其拒绝域C:内,则拒绝。问题二:根据统计学原理,建立Pearson(皮尔森)相关系数求解模型,Pearson(皮尔森)系数r为: 相关系数r的取值范围为1r-1,r的各种取值的意义为:r=1,序列X和Y是线性正相关;r=-1,序列X和Y之间是线性负相关;r=0,序列X和Y之间不相关;1r0,序列X和Y之间正相关,r越大相关度越高;0r-1,序列X和Y之间负相关,r越接近-1负相关度越高。问题三:建立方差比较模型,通过贪心算法来选出方差位于前十五的课程,并在为学生减负的前提下力求各学期课程门数相差不大。七、模型的求解问题一:根据问题一的模型,用spss对
7、其进行单因素方差分析,分析结果如下:I:七学期成绩分布表.sav表一:描述分数均值的 95% 置信区间N均值标准差标准误下限上限极小值极大值16275.93755.67240.7204074.497077.378063.3885.0026280.06455.18101.6579978.748881.380266.8691.4336276.50544.82168.6123575.280977.729965.0086.0046278.65054.88834.6208277.409179.891964.0086.0056276.24196.65131.8447274.552877.931154.86
8、89.7166277.86925.77920.7339676.401579.336864.6787.1176277.86093.64238.4625876.935978.785967.3884.75总数43477.59005.44443.2613477.076378.103654.8691.43表二:方差齐性检验分数Levene 统计量df1df2显著性3.1276427.005表三:ANOVA分数平方和df均方F显著性组间813.6716135.6124.817.000组内12021.24042728.153总数12834.911433在此之后检验表四:多重比较因变量:分数(I) 学期(J)
9、 学期95% 置信区间均值差 (I-J)标准误显著性下限上限LSD12-4.12702*.95297.000-6.0001-2.25393-.56788.95297.552-2.44101.30524-2.71304*.95297.005-4.5861-.83995-.30444.95297.750-2.17751.56876-1.93168*.95297.043-3.8048-.05867-1.92339*.95297.044-3.7965-.0503214.12702*.95297.0002.25396.000133.55914*.95297.0001.68605.432241.41398
10、.95297.139-.45913.287153.82258*.95297.0001.94955.695762.19534*.95297.022.32224.068472.20363*.95297.021.33054.076731.56788.95297.552-1.30522.44102-3.55914*.95297.000-5.4322-1.68604-2.14516*.95297.025-4.0183-.27215.26344.95297.782-1.60972.13656-1.36380.95297.153-3.2369.50937-1.35551.95297.156-3.2286.5
11、176412.71304*.95297.005.83994.58612-1.41398.95297.139-3.2871.459132.14516*.95297.025.27214.018352.40860*.95297.012.53554.28176.78136.95297.413-1.09172.65457.78965.95297.408-1.08342.662751.30444.95297.750-1.56872.17752-3.82258*.95297.000-5.6957-1.94953-.26344.95297.782-2.13651.60974-2.40860*.95297.01
12、2-4.2817-.53556-1.62724.95297.088-3.5003.24597-1.61895.95297.090-3.4921.2541611.93168*.95297.043.05863.80482-2.19534*.95297.022-4.0684-.322231.36380.95297.153-.50933.23694-.78136.95297.413-2.65451.091751.62724.95297.088-.24593.50037.00829.95297.993-1.86481.8814711.92339*.95297.044.05033.79652-2.2036
13、3*.95297.021-4.0767-.330531.35551.95297.156-.51763.22864-.78965.95297.408-2.66271.083451.61895.95297.090-.25413.49216-.00829.95297.993-1.88141.8648Dunnett t(双侧)a17-1.92339.95297.186-4.3795.5327272.20363.95297.097-.25254.659737-1.35551.95297.521-3.81161.100647.78965.95297.912-1.66653.245857-1.61895.9
14、5297.339-4.0751.837167.00829.952971.000-2.44782.4644*. 均值差的显著性水平为 0.05。a. Dunnett t 检验将一个组视为一个控制组,并将其与所有其他组进行比较。表五:同类子集分数学期alpha = 0.05 的子集N123Student-Newman-Keulsa16275.937556276.241936276.505476277.860977.860966277.869277.869246278.650578.650526280.0645显著性.052.097Duncana16275.937556276.241936276.5
15、05476277.860977.860966277.869277.869246278.650578.650526280.0645显著性.071.439.139将显示同类子集中的组均值。a. 将使用调和均值样本大小 = 62.000。表六:均值图表三中f=4.817,p=0.0000.05,因此接受方差齐次的假设进行独立样本t检验从第一个表可以看出班级1和班级2的平均成绩几乎接近;同时第二个表显示的p值=0.3130.05,即可说明两个班学生7个学期的成绩没有显著性不同。问题二:用spss进行双变量相关分析来求Pearson(皮尔森)系数r得出下表:描述性统计量均值标准差Na课程78.27512
16、.8134662b课程76.12376.7730262c课程78.47814.2358662相关性a课程b课程c课程a课程Pearson 相关性1.723*.678*显著性(双侧).000.000平方与叉积的和482.848840.718492.811协方差7.91613.7828.079N626262b课程Pearson 相关性.723*1.783*显著性(双侧).000.000平方与叉积的和840.7182798.3051370.451协方差13.78245.87422.466N626262c课程Pearson 相关性.678*.783*1显著性(双侧).000.000平方与叉积的和492
17、.8111370.4511094.493协方差8.07922.46617.943N626262*. 在 .01 水平(双侧)上显著相关。对表分析知上表的相关系数r,p 值,A,B,C三门课程在=0.01 水平下呈显著的相关性。我们认为,影响程度即Pearson(皮尔森)系数r,因此可得到A课程对B课程的影响程度为:0.723;B课程对C课程的影响程度为:0.783。问题三:在问题三中,由于学生的课程较重,由于较难的课程成绩整体偏低,平均数较小,方差较小。较易的课程成绩整体偏高,平均数较大,但方差较小。要减少学生成绩整体偏差不大的课程,就是在51门课程中找到方差较小的前15门课程,如下表:A47
18、72.341.00C13801.552.00A10922.843.00A14931.354.00A61,034.275.00A151,365.106.00A81,472.777.00C121,475.748.00A51,541.379.00A111,613.0510.00A121,677.7411.00A91,724.1912.00B171,797.3713.00C81,798.3414.00B92,114.3915.00但作为学生的我们知道学习的负担,考虑到为学生减负的方面和学习知识的要求,我们运用决策论的思想把为学生减负放在第一,对每个课程做了均衡的安排,用贪心算法处理了课程,减少的课程在
19、偏差最小的15课和难度最大(即平均值最小)的15门中。下图为51门课程平均值小的前15门:A365.761.00A166.342.00B1366.473.00B1867.604.00B1470.585.00B770.656.00A1172.187.00A1372.508.00A1472.559.00A1773.5210.00B573.5211.00B373.6012.00C773.8213.00B1074.4814.00C1075.1315.00第一学期课较多,去掉A4。第二学期课均衡,且偏差小的课程太多,把A9移到第三学期上。第四、五学期不变。第六学期课程较多,C8的不同学生的成绩偏差不大,
20、故把C8去掉,把C9移动第七学期上。第七学期中课程多,且有难度。我们去掉偏差小的C13和难度大的B18.调整后的课程方案如下表:第一学期第二学期第三学期第四学期第五学期第六学期第七学期课程A1、B1、A2、B2、A3、B3 、A5A6、B4、A7、A8、B5、A10A9、A11、B6、B7、A12、B8、A13A14、A15、B9、B10、B11、B12A16、A17、C1、B13、B14、C2、C3C4、C5、B15、A18、C6、C7、B16C9、B17、C10、C10、C11、C12、C14、C15八、模型评价本文利用数学统计方法对学生成绩进行一系列的分析,如显著性差异,相关性,均值方差
21、等,对学生成绩评价和统计有很强的现实意义。本文充分考虑了实际情况,不失一般性,根据数理统计等相关知识,我们建立了单因素方差分析模型,配对t检验模型,Pearson(皮尔森)相关系数求解模型,方差比较模型等对成绩是否显著性不同和是否相关进行了分析,并用spss软件进行模型求解,结论形象生动。该模型可以帮助学校、企业、政府等单位对一系列相关性的数据分析提供了依据。不过我们的模型都是在合理假设的条件下建立的,我们所求解的值有近似性,对于那些需要精确计算的问题都不能根据此模型草率计算,而需要根据具体问题具体分析,因此如果能对此模型能做出进一步的深入和改进,使计算变得更加精确合理,将会有更高的使用价值。
22、九、参考文献1 张伯懿. 统计学原理M. 北京: 中国石化出版社. 1997.9,2392442 周复恭. 应用数理统计M. 北京:中国人民大学出版社. 1989.9,3783913 谢明文. 关于协方差、相关系数与相关性的关系J. 数理统计与管理. 2004.23(3):3336附录:学生成绩统计表第一学期成绩第二学期成绩第三学期成绩学生学号A1B1A2B2A3B3A4A5A6B4A7A8B5A9A10A11B6B7A12B8A13171657171643976868260647967877972765786887627275849363687889806773756086796583728
23、281723517863625066769675809285759678679576988478479809054477076877565857961918274746685787255668897053268481774485775382826565488377676728589887588768483879080938982799089898661769829093669176887592807893877871968575858087079659261827886788382897585867792579278669608386936685788280928791738986718278
24、819180107464769265727885836782805389797776579086751175788185696978847685958482888285968081837212486878816567769576536080668886606664906576135292828764707887757988767087867494708272721472678578706686888163508573898373636981718315536367806571707875717875698583738370897866167586836453747885777773766787
25、868066718177651772949093658878928090968083928676927593847718516383765065768470276687568478687565788458197290799371888489799794878789837892848782672076768182657280877381728465867471866787756621524771795042788875866783848882667464808872225457796466677884716469715384866657617973652368828293689076898090
26、918888877872926987766824616079906666768271626983668978697065786854257268797965678482728786847478787073648268742668658093617386907868768870898777887990686927667990826273708381767780718878748572796366287775778488937691818890908589867691838882822956676869559076837479688671837864856884765930749188897490
27、768479959584908786719792809086315648878355637889838388797095787592688573693271657068476678798672658248858376806877838033688285947386768973879577768578729378767374346192919578767894809090849289867182539072783570768881687184898282818465897478756690776736627285626662767971697673488778618268857754376695
28、899782867682788099887979796994788862823871806992778184838286868482867976918181838139659783857286769176958086728787758081937884407682848082807691798480847889787383798072754154648366636976867261778865877463574687657242779061867189849079979587938987799586877975437167609065697791836988887284757575578571
29、694462708167656676887569848065927575735791836745818777916389848083868981827678807683827574466054889052767682747776868869787279748473704765808488707974828081958473858370918489727448678782856679809377728977708278709189847079496267675568666885747973867386826887648871625080689085686676959086758775937978
30、785593817851789090897983769582100889792988375868793747952768479937983787880919580838078728173867483537268827967637685806187805585748069658173755480728882728184878598928588797979938383768055687577806279767077759581767579687361857174565575777463647683756090866286876566578272835772818493688976927670768
31、08788786980739382805868928488809278858096888593927572979294847559606883876365788573728889757283748553788477606082778570707884777691748584826989697973706155606761585376817564747953868368686578765962567991826368789574517883709783677970907672第四学期成绩第五学期成绩A14A15B9B10B11B12A16A17C1B13B14C2C370777981899288
32、789470617976758580798983807487727684797997737476847672787383788971766572608375747957346663658064457964657671294378606982707989658377746778778174898178988392798661859283748575889786918183569681857479798489908882938181877970836950817581748846667881709083768790828288878176776989715671557473776560786174