1、第九章,两定序变量的等级相关,第一节,相关系数,一、斯皮尔曼(Spearman)等级相关系数rs,首先,从一个实例出发,设调查了5对夫妇,他们双方的家庭社会经济地位如下表:,表1 夫妻家庭社会经济地位,这5对夫妇地位等级记作:(1,2) (2,3) (3,4) (4,5) (5,1) 现在来计算每一对夫妇地位的等级差的平方 (1-2)2 (2-3)2 (3-4)2 (4-5)2 (5-1)2,可以想象,等级差的平方和极小值是零,它表示双方家庭都是严格按照高配高、低配低的。它称作完全的正等级相关。 (1-1)2 (3-3)2 (2-2)2 (4-4)2 (5-5)2如果双方家庭严格按照高配低、低
2、配高则称作完全的负等级相关,这时等级差的平方和达极大值。 (1-5)2 (2-4)2 (3-3)2 (4-2)2 (5-1)2,可见,等级相关的大小与等级差平方和有关。斯皮尔曼等级相关系数就是以上述讨论的等级差的平方和为基础来讨论等级相关的。,x等级 1,2,3 ny等级 1,2,3 . n设每一个对象在x和y上取值分别为: (x1, y1), ( x2, y2) . (xn, yn)它们等级差的平方为:,设样本共有n个调查对象。x共有n个等级,y也有n个等级。,斯皮尔曼等级相关系数rs为:,特点:1、当斯皮尔曼等级相关系数等于1时,属完全正等级相关(高配高),y,当斯皮尔曼等级相关系数等于-
3、1时,属完全负等级相关(高配低),y,斯皮尔曼等级相关系数特点:,1、取值范围-1 12、斯皮尔曼等级相关系数不具有PRE的性质。3、斯皮尔曼等级相关系数是对称测量,不区分自变量与因变量。,例1用斯皮尔曼等级相关系数rs,计算上面5对夫妇的家庭社会经济地位的等级相关:,可见,根据5户的资料计算,并不存在等级相关,注意1:等级相关和列联表相关的含义是不同的,如果把家庭社会经济地位只看作5个分类:而不计算类别所含等级因此,研究不同层次的变量应采用不同的相关系数。,例2:P337 习题一,解:两位评判员的打分为定序变量,故用rs计算,即两位评判员的打分相关程度很高,rs高达0.95。,D2 =8 n
4、=10,注意2,rs适用于定序变量,它研究的是变量的等级是否存在关系。 rs是以变量没有相同等级为前提的。如果相同等级不太多的话,可采用平均等级的方法来讨论等级相关。,例3. 为研究考试中学生交卷的名次是否与成绩相关,进行以下12名学生的抽样调查:,问:这12名学生交卷名次与成绩是否相关?,解:由于交卷名次是定序变量,因考试成绩也应转换为定序变量,以求等级相关,为此,以考试成绩排名次,但在78分,74分和60分出现同分现象,这时应取其平均名次:,92 90 86 78 78 74 74 74 68 64 60 60,1 2 3 4 5 6 7 8 9 10 11 12,4.5 7 11.5,即
5、这12名学生成绩与交卷名次有一定的关系。,D2 =247.00 n=12,二、Gamma等级相关,由于rs仅适用于变量没有相同的等级或只有少量的相同等级。如果调查对象很多,要划分很多的等级将很困难,而减少等级又会出现很多数据具有相同的等级,这时就不能有效地测量定序变量间的等级相关。这时我们可以选用G系数。Gamma等级相关系数允许数据具有相同的等级。它的使用不受样本容量的限制。,(一)名词解释:,1同序对NS调查对象A在变量X和Y上的等级(xi,yi), 调查对象B在变量X和Y上的等级(xj,yj) 如果xixj,则yiyj 称A和B为同序对例如:A交卷是第2名xi, 分数是90分yi B交卷
6、是第3名xj,分数是86分yj,同序对Ns: same ordered pair,条件: xixj yiyj注意:同序对只要求X变化方向与Y变化方向相同,但并不要求A与B中X的变化量(xi-xj)与Y的变化量(yi-yj)相等。,下列情况A与B都是属于同序对,A,B,同序对,A,B,同序对,B,A,2异序对Nd: different ordered pair,调查对象A变量X和Y具有等级(xi,yi),调查对象B变量X和Y具有等级(xj,yj),如果xixj,yiyj, 称A和B是异序对。异序对只要求X变化与Y变化的方向相反,但并不要求A与B中变化量|xi-xj|与Y的变化量|yi-yj|相等
7、。,异序对,B,A,异序对,B,A,异序对,B,A,3同分对TX、Ty、TXy: Tied pairs,调查对象A与B,变量X具有相同的等级,则称X同分对;TX调查对象A与B,变量Y具有相同的等级,则称Y同分对;Ty调查对象A与B,变量X与变量Y等级都相同,则称X、Y同分对。TXy,同分对Tx,B,A,同分对Ty,B,A,同分对Txy,B,A,例:试求以下单元数据,列举其中的同序对、异序对、同分对。,解:单元对数共有:,先以A 为基础来讨论: AB-X同分 AC-X同分 AD-同序对 AE-异序对以B 、C、D为基础讨论: BC-XY同分 CD-Y同分 BD-Y同分对 CE-异序对 BE-异序
8、对 DE-同序对,4根据列联表中频次计算Ns 、Nd、Tx、Ty、Txy,当调查总数很大的情况下,计算Ns、Nd等,可将数据先统计出按等级排列的列联表,然后依据列联表来进行计算。,通过列联表(以3*3表为例)来计算:,先以第一行为基础进行分析: 同序对数量为:f11*(f22+f32+f23+f33),以f12为基础分析,由于凡与f12 同行或同列者必形成同分对,而f12左侧各频次不能形成同序对,因此,只有f12右侧非同行同列者可形成同序对,以f21 为基础进行分析:出于同样的理由 ,它只有与f32 f33 形成同序对,计有f21 (f32 +f33),f22 ,它只有与f33 形成同序对计算
9、f22 .f33,同序对,先以第一行为基础进行分析: 异序对数量为:f13*(f21+f22+f31+f32),以第一行为基础进行分析: 异序对数量为:f12*(f21+f31),以第二行为基础进行分析: 异序对数量为:f23*(f31+f32),以第二行为基础进行分析: 异序对数量为:f22*f31,异序对,通过列联表(以3*3表为例)来计算Tx、Ty、Txy:,同理可求x同分对、y同分对 及 x,y同分对,Ty=f11(f12+f13)+f12.f13+f21(f22+f23)+f22.f23+f31(f32+f33)+f32.f33,总对数,n为总频数或个案总数,G系数:,Ns 同序对的
10、数目 Nd异序对的数目 G系数不考虑同分对。如果以同序对为主,则变量x和变量Y正相关,反之为负相关。同序对和异序对数量之差,则反映了等级相关的程度。,G系数的特征,1、G系数的取值范围,-1 G 1 G=1,则Nd=0,即均为同序对。 G=0,则Ns=Nd,即同序对和异序对相等。 G=-1,则Ns=0,即均为异序对。,G系数的特征,2、G具有PRE性质。3、G属于对称相关测量法。4、G系数不考虑同分对。,G系数的特征,5、当定序变量只有两种等级时,则G系数有:可见,当G系数不计及符号(或方向时)与2*2列联表中的Q系数相同,所以Q系数可看作G系数的特殊。,三、dyx相关测量法(萨默斯Somer
11、s dyx系数),Gamma系数是属于对称相关测量法。如果我们认为某定序变量是自变量(X),另一个变量是依变量(Y),最好采用dyx系数。,dyx=,(x是自变量、y为依变量),dxy=,(y为自变量、x为依变量),其中:Ns是同序对数 Nd是异序对数 Ty是只在依变量y上同分的对数,注意,dyx 是非对称的测量 X Y-1dyx1 具有PRE意义,例:我们在某城市调查200户人家,想知道住户的人口密度与婆媳冲突是否有关系。,交互分类之后的次数分布如下表:,解:由于两个变项都是属于定序测量层次,要用G或dyx,但是根据题意X与Y是非对称,因此,最好选用dyx,Ns=23*(55+28+27+2
12、4)+20*(28+24)+11*(27+24)+55*24=6003 Nd=4*(55+11+27+8)+20*(11+8)+28*(27+8)+55*8=2204 Ty=23*(20+4)+20*4+11*(55+28)+55*28+8*(27+24)+27*24=4141,因此,dyx=,dyx=0.308,可见,这200户调查资料中,婆媳冲突是与住户人口密度成正比,即住户的人口密度愈高引起婆媳的冲突愈大,如果以住户人口密度的高低预测估计婆媳冲突的大小,可以消减30.8%的误差。,如果假定X与Y是对称的,即拥挤的住户情况会引起婆媳的冲突,但婆媳不合也可能影响家人的劳动效率,收入少便住得拥
13、挤,则运用G,这个统计值显然比Dyx大,四、肯德尔(Keadall)的tau系数,肯氏把等级相关系数分以下三件情况来讨论:1.Tau-a (一般式) Tau-a系数仍以同序对NS与异序对ND之差为分子,但以样本容量所形成的总对数为分母。,Tau-a=,当数据中全是同序对时,Tau-a=1,如全是异序对时,Tau-a=-1,因此,Tau-a的取值范围为-1,+1,2.Tau-b(修正式),出现同分对时,分母作如下的修正,Tx为变量X方向的全部同分对数Ty为变量Y方向的全部同分对数,3.Tau-c,Tau-c=,即m为rc等级列联表中r和c值中较小者。m.r.c改为小写。 至于Tau-c,则无论有
14、无同分对和无论行数与列数是多少,其数值都是:-1,1在这种Tau系数中,以Tau-c是适合社会学研究。,以婆媳冲突与住户密度的关系为例,Ns=6003, Nd=2204, n=200 r=c=3,因此m=3则Tau-c=,注意,Tau三种系数均适宜于分析对称关系 Tau-c最常适合社会学研究Tau不具有PRE意义,因此应用比G、Dyx少 -1Tau-a1 -1Tau-c1 Tau-b不一定,习题,甲、乙、丙、丁四名运动员,他们平时训练的名次为1、3、4、4。在某次比赛中的名次为2、6、5、7。试对这四名运动员平时训练的成绩与比赛的成绩进行相关分析。,第二节 两个定序变量的检验,一、rs的检验二、Gamma的检验三、S因子检验,