1、两变量关联性分析,第十一章,第一节 线性相关,什么是相关?,当所研究的两个事物或现象之间,既存在着密切的数量关系,又不象函数关系那样,能以一个变量的数值精确地求出另一个变量的数值,我们称这类变量之间的关系为相关关系,简称相关。,目的:研究事物或现象之间有无关系、关系的方向和密切程度。,线性相关(linear correlation)又称简单相关,用于双变量正态分布资料。,相关关系并不一定是因果关系,相关分析的任务就是对相关关系给以定量的描述。,第一节 线性相关,线性相关的性质和相关之间的密切程度:,1. 正相关 2. 负相关 3. 无相关 4. 非线性相关,线性相关系数,(一)相关系数的意义,
2、相关系数(coefficient of correlation)又称积差相关系数(coefficient of product-moment correlation),以符号r表示。 它是说明具有直线关系的两个变量间相关密切程度和相关方向的统计指标。,线性相关系数,(一)相关系数的意义,r0:正相关; r0:负相关; r=0:零相关; |r|=l:完全相关。,相关系数没有单位,其值为-1rl,线性相关系数,Pearson相关系数的计算公式,(二)相关系数的计算方法,线性相关系数,(二)相关系数的计算方法,相关系数的计算,例:某地一年级12名女大学生的体重与肺活量数据如下,试问肺活量(L)Y与体
3、重(kg)X有无相关关系?,体重X:42,42,46,46,46,50,50,50,52,52,58,58。 肺活量Y:2.55,2.20,2.75,2.40,2.80,2.81,3.41,3.10,3.46,2.85,3.50,3.00,X=592, Y=34.83, X2=29512, Y2=102.9833, XY=1736.32,n12,相关系数的假设检验,r是样本相关系数,它是总体相关系数的估计值。要判断X、Y间是否有相关关系,就要检验r是否来自总体相关系数为零的总体。常用t检验:,Sr为相关系数r的标准误 自由度= n-2,1.t检验法,相关系数的假设检验,亦可按n-2,直接查附表
4、13,r界值表,得P 值。,2.查表法,例:就上例检验女大学生体重与肺活量间是否有直线相关关系,=0.05,本例,n=12, r=0.7495,= n 2 = 12 2 =10,t 0.01(10)=3.169 t=3.583.169,P0.01,按=0.05水准,拒绝H0,接受H1,故可以认为一年级女大学生体重与肺活量间呈正的直线相关,查表法: 根据自由度=n-2=12-2=10,查附表13,r界值表 r 0.05(10)=0.576 r=0.74950.576,P0.05,按=0.05水准,拒绝H0,接受H1,故可以认为一年级女大学生体重与肺活量间呈正的直线相关,进行相关分析时的注意事项,
5、线性相关表示两个变量之间的关系是双向的,当散点图出现直线趋势时,再作分析。 相关系数的计算只适用于两个变量都服从正态分布的资料。,样本相关系数是总体相关系数的一个估计值,与总体相关系数之间存在着抽样误差,必须作假设检验。 相关分析是用相关系数来描述两个变量间相互关系的密切程度和方向,相关关系不一定是因果关系。 出现异常值时慎用相关。,进行相关分析时的注意事项,第二节 秩相关(Spearman秩相关),秩相关,又称等级相关。 适用于不服从正态分布的资料或总体分布未知的资料,属非参数统计方法。,一、秩相关的概念及其统计描述,例11-4 某地研究27岁急性白血病患儿的血小板数与出血症状程度之间的相关
6、性,结果见表11-2。试用秩相关进行分析。,表11-2 患儿的血小板和出血症状,编号 血小板数 秩次 出血症状 秩次 pq1 121 1 11.5 11.52 138 2 9.0 183 165 3 7.0 214 310 4 3.5 145 426 5 9.0 456 540 6 9.0 547 740 7 3.5 24.58 1060 8 3.5 289 1260 9 3.5 31.5 10 1290 10 3.5 35 11 1438 11 11.5 126.5 12 2004 12 3.5 42 合计 78 78 451,步骤: 1. 将两变量X、Y成对的观察值分别从小到大排序编秩,以
7、pi表示Xi的秩次,以qi表示Yi的秩次。 2. 观察值相同的取平均秩次。 3. 将pi、qi直接替换原始数据,计算秩相关系数(rs)。,p=78, q=78, p2=650, q2=630, pq=451,n12,二、秩相关系数的统计推断,=0.05,当n50时,可查附表14,rs界值表,若统计量rs大于临界值,则拒绝H0假设。 当n50时,可作t检验。,例11-4中,算得rs0.422,n12,查rs界值表,rsr12,0.1=0.503,P0.1,按0.05的水准,不拒绝H0,可认为急性白血病患儿的出血症状与血小板数之间无相关关系。,第三节 分类变量的关联性分析,例11-6 为观察婴儿腹
8、泻是否与喂养方式有关,某医院儿科随机收集了消化不良的婴儿82例,把该院儿科所有消化不良的患儿视为一个总体的话,则该82例患儿可看作一份随机样本,对每个个体分别观察腹泻与否和喂养方式两种属性,试分析两种属性的关联性。,一、交叉分类22表的关联分析,表11-3 婴儿腹泻与喂养方式的关系,喂养方式 腹泻 合计有 无人工 30 10 40母乳 17 25 42合计 47 35 82,两种属性的关联性分析 H0:喂养方式与婴儿腹泻间互相独立 H1:喂养方式与婴儿腹泻间有关联0.05,由于2 = 9.98 2 0.05(1) = 3.84,故P0.05,按=0.05 水准拒绝H0,接受H1 ,故可以认为喂
9、养方式与婴儿腹泻间存在关联性。,两分类变量的关联程度,可用pearson列联系数来描述。,例11-7 有56份咽喉涂抹标本,把每份标本一分为二,依同样的条件分别接种于甲、乙两种培养基上,观察白喉杆菌的生长情况,结果见表11-5,问两种培养基的结果有无关联?,二、22配对资料的关联性分析,表11-5 两种培养基白喉杆菌生长情况甲培养基 乙培养基 合 计 22(a) 18(b) 40 2(c) 14(d) 16 合计 24 32 56,检验步骤: 1建立假设: H0:两种培养基的结果之间互相独立 H1:两种培养基的结果之间互相关联 0.05 2计算2值,由于2 = 8.43 2 0.05(1) =
10、 3.84,故P0.05,按=0.05 水准拒绝H0,接受H1 ,故可认为两种培养基的结果之间存在关联性。,pearson列联系数,例11-8 某地居民主要有三种祖籍,均流行甲状腺肿。为探讨甲状腺肿类型与祖籍是否有关联,现根据居民甲状腺肿筛查结果,按甲状腺肿类型与祖籍两种属性交叉分类,得表11-6的结果,问甲状腺肿类型与祖籍间有无关联?,三、RC表分类资料的关联性分析,表11-6 甲状腺肿类型与祖籍的关系,祖籍 甲状腺肿类型 合计弥漫型 结节型 混合型 甲 486 2 4 492 乙 133 260 51 444 丙 100 315 85 500 合计 719 577 140 1436,两种属
11、性的关联性分析 H0:甲状腺肿类型与祖籍间无关联 H1:甲状腺肿类型与祖籍间有关联0.05,由于2 = 723.783 2 0.05(4) = 9.49,故P0.05,按=0.05 水准拒绝H0,接受H1 ,故可认为甲状腺肿类型与祖籍间有关联。,pearson列联系数,线性相关的概念,线性相关(linear correlation)又称简单相关,用于双变量正态分布资料。,相关关系并不一定是因果关系,相关分析的任务就是对相关关系给以定量的描述。,小 结,相关系数的意义,相关系数(coefficient of correlation)又称积差相关系数(coefficient of product-
12、moment correlation),以符号r表示。它是说明具有直线关系的两个变量间相关密切程度和相关方向的统计指标。,小 结,r0:正相关; r0:负相关; r0:零相关; |r|l:完全相关。,小 结,线性相关系数的特点,1.相关系数r是一个无量纲的数值,且-1rl ; 2. r0为正相关,r0为负相关; 3.|r|越接近于l,说明相关性越好, |r|越接近于0,说明相关性越差。,小 结,练习1 根据如下资料,试分析16名男大学生的身高与肺活量的线性相关关系。 身高: 1.742 1.718 1.714 1.7121.720 1.704 1.709 1.729 1.7081.698 1.
13、714 1.674 1.683 1.6701.679 1.692 肺活量:4.650 4.278 4.420 4.3794.365 4.222 3.973 4.290 4.0224.077 4.318 4.039 3.850 3.6253.874 3.911,X=27.266 Y=66.293, X2=46.471 Y2=275.728, XY=113.042 n=16,相关系数假设检验,=0.05,=n216214, t0.05(14)=2.145 t=6.602.228,P0.05,按=0.05水准,拒绝H0,接受H1,故可以认为男大学生身高与肺活量间呈正的直线相关,查表法: 根据自由度=
14、n-2=16-2=14,查附表13,r界值表 r0.05(14)=0.497 r=0.870.497,P0.05,按=0.05水准,拒绝H0,接受H1,故可以认为男大学生身高与肺活量间呈正的直线相关,练习2 判断题1)r0.8,就可以认为两变量相关非常密切 ( ) 2)相关系数的假设检验P值越小说明X和Y的关系越密切 ( ),错误,错误,练习2 判断题3)相关系数为0.78,P0.05,说明两变量密切相关 ( ) 4)根据样本算得一相关系数r,经t检验,P0.01,说明r来自高度相关的总体 ( ),错误,正确,练习3 单选题,1)计算积差相关系数要求( ) A只要一个变量服从正态分布 B两变量
15、均要求服从正态分布 C两变量均不要求服从正态分布 D等级资料,2)相关系数检验的无效假设是 ( ) A 0 B 0 C =0 D =1 E =-1,练习3 单选题,简单回归分析,第十二章,第一节 线性回归,线性回归的概念,假设两个变量X,Y中,当一个变量X改变时,另一个变量Y也相应地改变,此时称X为自变量(independent variable),Y为应变量(dependent variable) 。当这两个变量之间存在着直线关系时,不仅可以用相关系数r表示变量Y与X线性关系的密切程度,也可以用来表示Y与X的线性关系,称为线性回归(1inear regression)。为了区别于一般函数方程
16、,我们将它称为直线回归方程。,由图10.1可见,肺活量Y 有随体重X增加而增大的趋势,且散点呈直线趋势,但并非12个点恰好全都在一直线上。,直线回归方程的求法,一般表达式 :,a为回归直线在Y轴上的截距(intercept)。 a0:直线与纵轴的交点在原点的上方 a0:则交点在原点的下方 a0:则回归线通过原点,b为回归系数(regression coefficient),即直线的斜率(slope) b0:表示直线从左下方走向右上方, 即Y随X增大而增大 b0:表示直线从左上方走向右下方,即y随X增大而减少 b0:表示直线与X轴平行,即X与Y无直线关系,b的统计学意义是X每增(减)一个单位,Y
17、平均改变b个单位,根据数学上的最小二乘法(least square method)原理(即保证各实测点至直线的纵向距离的平方和最小),可导出a、b的算式如下:,就上例试求女大学生肺活量Y对体重X的直线回归方程 :,回归方程:,直线回归方程的图示,在自变量X的实测全距范围内任取相距较远且易读数的两个X值,代入上式。如上例取X=42,得Y=2.47;取X58,得Y=3.41。在图上确定(42,2.47)和(58,3.41)两个点,以直线连接,即得直线式 =0.000419+0.058826X的图形。,注意:所绘直线必然通过点( ),若纵坐标、横坐标无折断号时,将此线左端延长与纵轴相交,交点的纵坐标
18、必等于截距a,直线回归方程的应用,1. 描述两变量间的依存关系 2. 利用回归方程进行预测(forecast) 3. 利用回归方程进行统计控制(statistical control),回归系数的假设检验,回归方程是否成立,即x、y是否有直线关系,是回归分析要考虑的首要问题。即使x、y的总体回归系数为零,由于抽样误差,其样本回归系数b也不一定为零,因此需作是否为零的假设检验,可用方差分析或t检验。,目的:检验b是否来自总体回归系数为零的总体 步骤 1. 建立假设和确定检验水准:H0:=0H1:0 =0.05,回归系数的假设检验,2. 计算统计量,(一)方差分析,总 = n-1 回归=1 剩余=
19、n-2,SS剩余 = SS总 - SS回归,式中Sb为样本回归系数的标准误,Sy.x为剩余标准差,是当X的影响被扣除后,应变量Y值对于回归直线的离散程度。,(二)t检验,2. 计算统计量,回归系数与相关系数的假设检验是等值的,即tr = tb,应用直线回归应注意的问题,(1)作回归分析要有实际意义,不能把毫无关联的两种现象作回归分析,必须对两种观象间的内在联系有所认识。 (2)作回归分析时,一般以“因”的变量为X,以“果”的变量为Y。若变量之间无因果关系,则以容易测定、较稳定或变异较小者为X。,应用直线回归应注意的问题,(3)应变量是随机变量。自变量也是随机变量时,两者均应服从正态分布;自变量
20、为给定的量时,与每个X取值相对应的变量Y必须服从正态分布。 (4)回归方程只有经过检验拒绝了无效假设后才有意义。,应用直线回归应注意的问题,(5)回归方程的适用范围有其限度,一般仅适用于自变量X的原数据范围内,而不能任意外推。 (6)在进行直线回归分析之前,应绘制散点图,当观察点的分布有直线趋势时,才适宜作直线回归分析,如散点图明显呈曲线趋势,使之直线化再行分析。,1. 在资料要求上,回归要求因变量Y服从正态分布;X是可以精确测量和严格控制的变量,一般称为I型回归。,第三节 直线相关与回归的区别和联系,区别,相关要求两个变量X、Y服从双变量正态分布。这种资料若进行回归分析称为型回归。可以计算两
21、个回归方程。 由X推Y的回归方程:,由Y推X的回归方程:,2. 在应用上,说明两变量间依存变化的数量关系用回归,说明变量间双向的相互关系时用相关。,区别,联系1.对一组数据若同时计算r与b,它们的正负号是一致的。r为正号说明两变量间的相互关系是同向变化的。b为正,说明X增(减)一个单位,Y平均增(或减)b个单位。2.r和b的假设检验是等价的,即对同一样本,二者的t值相等。3.回归与相关可互相解释。,r2称为决定系数(Coefficient of determination)。,1、区别: (1)相关的两个变量都需服从正态分布回归中Y必须服从正态分布,X不一定 (2)相关表示相互关系(双向),回
22、归表示数量依存关系(单向) 2、联系 (1)同一样本r与b的正负号是一致的 (2)同一样本r与b的假设检验是等价的 (3)相关回归可互相解释r2 决定系数,小 结,1. 直线回归用来描述两变量间的依存关系,主要用途是预测和控制。 2. 根据回归方程绘制的直线是回归线,与纵坐标交点为截距,回归直线的斜率称为回归系数。,3.应变量是随机变量。自变量也是随机变量时,两者均应服从正态分布;自变量为给定的量时,与每个X取值相对应的变量Y必须服从正态分布。 4.对于某些非线性资料可以通过变量变换使之直线化。 5.回归与相关可互相解释。,1)回归系数越大,两变量相关关系越密切 ( ) 2)回归系数小于0,且
23、有统计学意义,可以认为两变量负相关( ) 3)同一样本的r和b的假设检验结果相同 ( ),练习1 判断题,错误,正确,正确,1)回归方程 =a+bx中,符号分别代表意义如下,除了 ( )A 为应变量Ba 为常数项 Cb 为回归系数 DX为应变量,练习2 单选题,2)关于直线相关系数与回归系数的关系描述错误的是 ( )Ar大,则b也一定大Br不可能大于1,b则可大于1C同一组资料, r0,则b0 D同一组资料,tr=tb,练习2 单选题,3)直线回归系数的假设检验,其自由度为 ( ) A.n B.n-1 C.n-2 D.2n-1 E.2n-2 4)回归系数检验的无效假设是( ) A.0 B.0 C.=0 D. b =0 E.b 0,练习2 单选题,5)两组资料中,回归系数较大的一组 ( ) A则r也较大 B则r也较小 C两变量关系较密切 D则r可能大也可能小,练习2 单选题,