1、职教学院 刘春雷E-mail:,教育统计学,1,2,第十一章 相关分析,第一节 相关的意义第二节 积差相关第三节 等级相关第四节 质与量的相关第五节 品质相关,3,第一节 相关的意义,平均数、标准差是对单变量进行描述的特征量。若对两个变量之间变化关系进行描述,需要用相关量。例如:智力与学习成绩的关系;某一试题的得分与试卷总分之间的关系。,4,一、相关的概念相关关系两个变量之间不精确、不稳定的变化关系称为相关关系。函数关系两个变量值是一一对应、精确稳定的变化关系。两个变量间的变化关系,表现在:变化方向上密切程度上,第一节 相关的意义,5,一、相关的概念变化方向:1、正相关两个变量的变化方向一致,
2、即一个变量值变大(小)时,另一个变量值也随之变大(小)。如:智商与学习成绩的关系(在非智力因素相同的情况下)。2、负相关两个变量的变化方向相反,即一个变量值变大(小)时,另一个变量值也随之变小(大)。如:解题能力与解题时间长短的关系。3、零相关(无相关)两个变量值变化方向无一定规律,即一个变量值变大时,另一个变量值可能变大也可能变小,并且变大、变小的机会趋于相等。,第一节 相关的意义,6,一、相关的概念密切程度无论两个变量的变化方向是否一致1、强相关(高度相关)密切程度高;2、中度相关密切程度一般;3、弱相关或低度相关密切程度弱。,第一节 相关的意义,7,二、相关系数用来描述两个变量之间变化方
3、向及密切程度的数字特征量称为相关系数。用r表示。取值范围 -1到+1之间,即0|r|1。正负号及绝对值的大小表明两个变量之间变化的方向及密切程度。r=1 完全正相关r=-1完全负相关。,第一节 相关的意义,8,二、相关系数相关系数的值,仅仅是一个比值。不是由相等单位度量而来,即不等距,也不是百分比,因此,不能直接作加、减、乘、除运算。相关系数只能描述两个变量之间的变化方向及密切程度,并不能揭示两者之间的内在本质联系。存在相关的两个变量,也不一定存在因果关系。,第一节 相关的意义,9,一、概念及其适用范围1、积差相关的概念当两个变量都是正态连续变量,而且两者之间呈线性关系时,表示这两个变量之间的
4、相关称为积差相关。2、积差相关的适用条件第一,两个变量都是由测量获得的连续性数据。第二,两个变量的总体都呈正态分布,或接近正态分布,至少是单峰对称的分布(判断总体是否呈正态分布可用卡方检验)。,第二节 积差相关,10,2、积差相关的适用条件第三,必须是成对数据,而且每对数据之间相互独立。第四,两个数据之间呈线性关系(可由相关散布图的形状来决定)。第五,要排除共变因素的影响。例如,不能用智力不同的学生的学习成绩来考查两门学科之间的相关情况。第六,样本容量n30,计算出的积差相关系数才具有有效意义。,第二节 积差相关,11,一、概念及其适用范围3、积差相关系数的定义公式协方差是两个变量离差乘积之和
5、除以n所得之商。,第二节 积差相关,协方差是积差相关系数的基础。离差乘积之和的大小,能反映两个变量之间的关系。两个离差乘积和为正,且数值较大,说明两个变量的变化方向一致,且关系密切;两个离差乘积和为负,且数值较大,说明两个变量的变化方向相反,但关系密切;两个离差乘积和趋于0,说明无相关。,12,一、概念及其适用范围3、积差相关系数的定义公式但协方差是带有具体单位的绝对数量,不能与单位不同的资料相比较。为使协方差变成相对数,可将两个离差除以相应的标准差,使之变成两个标准分数,然后将两个标准分数的乘积之和除以n,便为积差相关系数r。,第二节 积差相关,13,一、概念及其适用范围3、积差相关系数的定
6、义公式积差相关系数就是两个变量标准分数乘积之和除以n所得之商。,第二节 积差相关,XX变量的样本标准差YY变量的样本标准差,14,二、积差相关系数的计算方法1、用原始数据计算,第二节 积差相关,XYX与Y两个变量每对观察值的乘积之和XX变量的观察值的总和YY变量的观察值的总和X2X变量的观察值平方之和Y2Y变量的观察值平方之和,15,表11.4 10个学生初一(X)与初二(Y)数学分数积差相关系数计算表,第二节 积差相关,16,第二节 积差相关,二、积差相关系数的计算方法1、用原始数据计算,17,三、相关系数的等距转换及其合并相关系数不具有等距的单位,不可以直接相加减。但在研究中,常需要计算几
7、个相关系数的平均数。方法一:将相关系数r转换成等距单位的Zr值,可用统计学家费舍的Zr转换法,其转换公式为:,第二节 积差相关,18,三、相关系数的等距转换及其合并方法二:不必计算,可直接查r与Zr转换表。因Zr的分布无论总体相关系数的大小及样本容量n的大小,都近似正态分布,故Zr是等距的。,第二节 积差相关,19,三、相关系数的等距转换及其合并例如为了考察数学与物理两门学科成绩的相关程度,从北京、上海、广州各随机抽取某年全国统一高考的数学与物理试卷计算出的积差相关系数如表11.5,求三个城市数学与物理高考成绩相关系数的平均数。表11.5 某年高考数学与物理成绩三个相关系数平均数计算表,第二节
8、 积差相关,20,三、相关系数的等距转换及其合并(1)将各相关系数r转换成Zr即利用r与Zr转换表根据r值寻找相应的Zr值,如北京数学与物理高考成绩的相关系数r=0.515,其Zr=0.570。,第二节 积差相关,21,三、相关系数的等距转换及其合并(2)求Zr的平均数Zr其计算公式为,第二节 积差相关,22,三、相关系数的等距转换及其合并(3)将Zr转换成r仍用r与Zr转换表,本例与Zr=0.559相对应的r=0.507,即三个城市某年高考数学与物理成绩相关系数的平均数是0.507。,第二节 积差相关,23,四、相关系数的显著性检验(一)相关系数的抽样分布从两个正态连续变量的总体中,随机抽取
9、n对数据,算得一个样本相关系数r值,随后将这些数据还回两个总体中去,再从中随机抽取n对数据,又可以计算出一个样本的r值,这样反复抽下去,就会有一切可能个样本的r值,这一切可能个样本r值的频数分布,就构成一个实验性的相关系数r的抽样分布。,第二节 积差相关,24,四、相关系数的显著性检验(一)相关系数的抽样分布相关系数抽样分布的形态,随总体相关系数和样本容量n的大小而变化。当=0时,样本r的抽样分布呈正态;当0时,而n相当大时(如n=50),r的抽样分布接近于正态。当0时,而n相当小时(如n=6),r的抽样分布呈偏态。当很大时(如=0.8),即使n较大,r的抽样分布也呈偏态。,第二节 积差相关,
10、25,四、相关系数的显著性检验(一)相关系数的抽样分布根据样本相关系数r对总体相关系数进行推断是以r的抽样分布正态性为转移的,正态分布只有当总体相关系数为零,或者接近于零,样本容量n相当大(n50或n30)时,r的抽样分布才接近于正态分布。,第二节 积差相关,26,四、相关系数的显著性检验(二)相关系数显著性检验的基本原理根据样本数据计算出来的相关系数r,存在抽样误差。因此,还不能根据|r|的大小,对X与Y之间关系的密切程度作出判断,还要看r在以=0为中心的抽样分布上出现的概率如何。,第二节 积差相关,27,(二)相关系数显著性检验的基本原理如果从=0的总体中,随机抽取的r在抽样分布上出现的概
11、率较大,则r和=0的无显著性差异。这时,即使|r|较大,也不能认为X与Y是相关的;反之,如果从=0的总体中,随机抽取的r在抽样分布上出现的概率较小,则r和=0有显著性差异。这时,即使|r|较小,也应认为X与Y是相关的;这时才能根据样本|r|的大小来说明X与Y相关关系的密切程度如何。,第二节 积差相关,28,(三)相关系数显著性检验的步骤及方法1、H0:=0条件下,相关系数的显著性检验对于总体相关系数=0的零假设进行显著性检验时,又可分为两种情况:1)当n50的情况当n50时,r的抽样分布接近于正态分布,其标准误为:,第二节 积差相关,r两个变量的积差相关系数;n样本的容量,29,(三)相关系数
12、显著性检验的步骤及方法1、H0:=0条件下,相关系数的显著性检验1)当n50的情况例如150个6岁男童体重和屈臂悬体的相关系数为r=-0.35,问从总体来说,6岁男童体重和屈臂悬体之间是否存在相关?检验的步骤:(1)提出假设H0:=0 H1:0,第二节 积差相关,30,检验的步骤:(2)选择检验统计量并计算其值由于n=15050,r的抽样分布接近于正态,则检验统计量为:,第二节 积差相关,31,检验的步骤:(3)确定检验的形式进行双侧检验。(4)统计决断根据双侧Z检验统计决断规则,由于|Z|=4.87*2.58=Z0.01,则P0.01,于是在0.01显著性水平上拒绝H0而接受H1。其结论:样
13、本相关系数r=-0.35与总体零相关有极其显著性差异。或者说,r=-0.35的样本不是来自于=0的总体。从而说,6岁男童体重与屈臂悬体之间存在着负相关。,第二节 积差相关,32,(三)相关系数显著性检验的步骤及方法1、H0:=0条件下,相关系数的显著性检验1)当n50的情况2)当n50的情况当n50时,关于=0的零假设,可用费舍提出的t统计量来检验相关系数的显著性。,第二节 积差相关,33,例如:本章表11.1的资料,10个学生初一数学分数与初二数学分数的相关系数r=0.78,问从总体上来说,初一与初二数学分数是否存在相关?检验的步骤:(1)提出假设H0:=0 H1:0(2)选择检验统计量并计
14、算其值由于n=103.355=t(8)0.01,则P0.765=r(8)0.01,则P0.01,于是在0.01显著性水平上拒绝H0,而接受H1。,第二节 积差相关,36,表11.6 相关系数显著性统计决断规则(单侧或双侧),第二节 积差相关,37,(三)相关系数显著性检验的步骤及方法1、H0:=0条件下,相关系数的显著性检验1)当n50的情况2)当n50的情况2、H0:=0条件下,相关系数的显著性检验当0时,r的抽样分布不呈正态而呈偏态。可查r与Zr转换表,将r转换成Zr,而Zr的分布无论的大小及n的大小都近似于正态。,第二节 积差相关,38,(三)相关系数显著性检验的步骤及方法2、H0:=0
15、条件下,相关系数的显著性检验例如:29个学生几何期中与期末考试成绩的r=0.30,问全年级几何期中与期末考试成绩的相关系数是否为0.64?检验步骤:(1)提出假设H0:=0.64 H1:0.64(2)将r转换成Zr ,转换成Z查表,与r=0.300相对应的Zr=0.310, 与=0.64相对应的Z=0.758。,第二节 积差相关,39,检验步骤:(3)选择检验统计量并计算其值由于Zr的抽样分布呈正态分布,则检验统计量为,第二节 积差相关,代入数据,则Z=-2.28,40,检验步骤:(4)确定检验形式采用双侧检验。(5)统计决断根据双侧Z检验统计决断规则,由于Z0.05=1.962.28*2.5
16、8=Z0.01,则0.01P0.05,根据双侧Z检验统计决断规则,应保留H0而拒绝H1。其结论为:甲乙两班语文和英语两个相关系数样本相关系数r1与r2没有显著性差异。或者说,r1与r2来自于同一个总体。,45,等级相关是指以等级次序排列或以等级次序表示的变量之间的相关。主要包括斯皮尔曼二列等级相关;肯德尔和谐系数多列等级相关。,第三节 等级相关,46,一、斯皮尔曼等级相关(一)概念及其适用范围等级相关当两个变量值以等级次序排列或以等级次序表示时,两个相应总体并不一定呈正态分布,样本容量也不一定大于30,表示这两个变量之间的相关,称为等级相关。等级秩序性分数根据某种标准对某项成绩所评定的等级,或
17、按某种指标的优劣程度所排列的名次等,均属于等级秩序性分数。,第三节 等级相关,47,计算等级相关系数不要求总体呈正态分布也不要求n30,所以应用范围较广。不适用若两个变量的原始资料都是较精确的度量资料(一般采用积差相关)则不必化成较粗略的等级资料,否则会失掉很多信息。适用于原始资料本身就属于等级资料,或者难以判断资料所属总体呈何种分布形态。,第三节 等级相关,48,(二)相关系数的计算计算等级相关系数的公式为,第三节 等级相关,rR 等级相关系数D 两个变量每对数据等级(不是指原始的等级)之差N 样本的容量,49,例如:10名高三学生是学习潜在能力(简称学能)测验(X)与自学能力测验成绩(Y)
18、如表,问两者相关情况如何?表11.7 10名学生学习潜能与自学能力测验成绩等级相关计算表,第三节 等级相关,50,分析:虽然X变量可视为正态连续变量,但Y变量是按某种标准评定的等级(自学能力强,等级数越小),故两者之间的关系只好用等级相关表示。等级相关系数的计算步骤如下:第一步,赋予等级。分别将两个变量的成绩从优到劣赋予等级,最优者赋予1,或者最劣者赋予1。赋予等级时,两个变量方向要一致,中间依次递增。若有相同等级分数时,可用它们所占等级位置的平均数作为它们的等级。如:3个71分,所占等级位置数分别为4、5、6,其平均数为5,则它们的等级数均为5。,第三节 等级相关,51,分析:第一步,赋予等
19、级。第二步,计算两个变量每对数据所赋予的等级数之差D,及差数的平方之和,即D2。第三步,将有关数据代入等级相关的计算公式,则,第三节 等级相关,52,(三)相关系数的显著性检验10个学生学习潜能在能力与自学能力测验成绩相关系数为0.891,问从总体上说,两者是否存在相关?方法一:等级相关与积差相关系数检验方法相同检验的步骤:(1)提出假设H0:=0 H1:0,第三节 等级相关,53,检验的步骤:(2)计算检验统计量的值由于n=103.355=t(8)0.01,则P0.765= r(8)0.01,则P0.794= rR(10)0.01,则P0.01,于是在0.01显著性水平上拒绝H0而接受H1,
20、第三节 等级相关,57,二、肯德尔和谐系数(一)概念及其适用范围肯德尔和谐系数当多个(两个以上)变量值以等级次序排列或以等级次序表示,描述这几个变量之间的一致性程度(即相关)的量,称为肯德尔和谐系数。常用来表示几个评定者对同一组学生学习成绩评定的一致性程度,或同一个评定者对同一组学生的学习成绩用等级先后评定多次之间的一致性程度。,第三节 等级相关,58,二、肯德尔和谐系数(一)概念及其适用范围(二)相关系数的计算1、无相同等级的情况当同一位评定者对所有被评事物的评定无相同等级时,其肯德尔和谐系数的计算公式为,第三节 等级相关,rW肯德尔和谐系数K评定者的人数;或同一评定者对同一组被评事物先后评
21、定次数n被评定事物的个数RK个评定者对同一被评事物所给予的等级之和SSRR的离差平方和, 即SSR=R2-(R)2/n,59,例如:4位教师对6个学生作为竞赛的名次排列次序如表11.8所示,问评定的一致性程度如何?表11.8 4位教师对6个学生作文竞赛名次排列的肯德尔和谐系数计算表,第三节 等级相关,SSR=R2-(R)2/n=1370-842/6=194将有关数据代入公式,于是4位评分者对6个学生作为竞赛等级评定的相关程度为:,60,二、肯德尔和谐系数(二)相关系数的计算2、有相同等级的情况当同一位评定者对所有被评事物的评定有相同等级时,可对肯德尔和谐系数进行校正,校正公式为:,第三节 等级
22、相关,T=(m3-m)/12m相同等级的个数,61,例2同一位教师对5份研究生入学考试政治试卷根据标准先后3次等级评定结果如表11.9,问3次评定结果的相关程度如何?表11.9 同一位教师对5份研究生入学政治试卷先后3次等级评定结果的肯德尔和谐系数计算表,第三节 等级相关,62,校正的肯德尔和谐系数计算步骤如下:(1)赋予等级在同一次评定中,若有相同的等级,可用它们所占位置等级的平均数作为它们的等级。例如,第一次评定中,有3个2,它们所占的位置数分别为2、3、4,其平均数为3,则赋予它们的等级数均为3。(2)计算SSR将每个学生三次被评等级求和为R,平方之和为R2,于是SSR为:SSR=R2-
23、(R)2/n=470-452/5=65,第三节 等级相关,63,校正的肯德尔和谐系数计算步骤如下:(3)计算T根据公式,第一次评定中有3个等级相同。则T1= (33-3)/12=2;第三次评定中有2个2相同,2个3相同,则T3=(23-2)/12+(23-2)/12=1;于是T=2+1=3(4)计算校正的肯德尔和谐系数将有关数据代入公式,于是,第三节 等级相关,64,(三)相关系数的显著性检验现以上例说明与总体零相关差异显著性检验的步骤:(1)提出假设H0:=0 H1:0(2)计算检验统计量的值检验统计量为:2=K(n-1)rW代入有关数据,则2=K(n-1)rW=3(5-1)0.802=9.62,第三节 等级相关,65,(三)相关系数的显著性检验(3)统计决断根据自由度df=n-1=5-1=4,查2值表,找到2 (4)0.05=9.49,2 (4)0.01=13.28,由于实际计算的2= 9.62,2 (4)0.05=9.499.62*13.28=2 (4)0.01,则0.01P0.05,于是应在0.05显著性水平上拒绝H0,而接受H1。其结论为:同一位教师对5份研究生入学考试政治试卷先后3次等级评定结果从总体上说是一致的(相关的),此结论的可靠度为95%。,第三节 等级相关,谢 谢 大 家!,66,