1、第十章 两变量关联性分析,问题的提出,以往方法的局限仅限于考察一个观察指标,问题的提出,人的体重往往随着身高的增加而增加。二者之间是否存在某种关联?如果存在,可否用身高来推测体重的多少? 人的肺活量往往随着胸围的增加而增加。 举重运动员所能举起的最大重量是否与他的体重有关?,outline,线性相关 秩相关 分类变量的关联性分析,线性相关(linear correlation),线性相关,用以描述两个呈正态分布的随机变量之间的线性共变关系。,当一个变量增大,另一个也随之增大(或减少),我们称这种现象为共变,也就是有相关关系。若两个变量同时增加或减少,变化趋势是同向的,则两变量之间的关系为正相关
2、(positive correlation);若一个变量增加时,另一个变量减少,变化趋势是反向的,则称为负相关(negative correlation)。,如何判断两变量有无相关性?,(1)正相关 (2)负相关,(3)非线性相关 (4)零相关,Pearson积矩相关系数,定量地描述线性相关程度的一个常用指标; 总体相关系数用希腊字母表示; 样本相关系数用r表示;,Pearson积矩相关系数的计算,X 的离均差平方和: Y 的离均差平方和: X与Y 间的离均差积和:,离均差平方和、离均差积和的展开:,积矩相关系数的特点,一个无量纲的数值 ; 取值范围:-1r1 ; r0为正相关r0为负相关r0
3、为零相关或无相关; r越接近于,说明相关性越好,r越接近于,说明相关性越差。,r=0,零相关,0r1,-1r0,正相关,负相关,例11-1 随机抽取1名健康成人,测定血液的凝血酶浓度(单位/毫升)及凝固时间,数据如表11-1所示。据此数据如何判断这两项指标间有否相关?,表111 15名健康成人凝血时间与凝血酶浓度测量值记录,线性相关?,1.制散点图,2.计算积矩相关系数,负相关,相关系数的假设检验,查表法:r界值表(附表13)t检验,相关系数的假设检验-查表法,建立假设,确定检验水准H0:0,凝血酶浓度与凝血时间无直线相关关系;H1:0 ,凝血酶浓度与凝血时间有直线相关关系; = 0.05。
4、查r界值表(附表13): r =-0.926,|r|=0.926v=n-2=13,r0.05/2,13=0.514 确定p值,下结论,按 = 0.05水准, P0.05 相关系数有统计学意义,可认为凝血酶浓度与凝血时间之间的确存在线性相关。,相关系数的假设检验-t检验,建立假设,确定检验水准H0:0,凝血酶浓度与凝血时间无直线相关关系;H1:0 ,凝血酶浓度与凝血时间有直线相关关系; = 0.05。 计算检验统计量:v=n-2=13 (t0.05/2,13=2.16) 确定p值,下结论,按 = 0.05水准, P0.05 相关系数有统计学意义,可认为凝血酶浓度与凝血时间之间的确存在线性相关。,
5、20,线性相关应用中应注意的问题,先绘制散点图,当有线性趋势时,才做相关分析,线性相关应用中应注意的问题,样本的相关系数接近零时并不意味着两变量间一定无相关性;,r=0,线性相关应用中应注意的问题,线性相关要求两变量都是正态分布资料,线性相关应用中应注意的问题,出现离群值时慎用相关;,线性相关应用中应注意的问题,相关未必真有内在联系;,线性相关应用中应注意的问题,分层资料盲目合并易出假象。,线性相关应用中应注意的问题,先绘制散点图; 样本的相关系数接近零时并不意味着两变量间一定无相关性; 线性相关要求两变量都是正态分布资料; 出现异常点时慎用相关; 相关未必真有内在联系; 分层资料盲目合并易出
6、假象。,27,某地研究岁急性白血病患儿的血小板数与出血症状程度之间的相关性, 结果见表11-2,试对其相关性进行分析。,思考,秩相关(rank correlation),适用资料:不服从正态分布的资料或是总体分布未知的资料的定量资料;等级资料。 原理:利用两变量的秩次大小作线性相关分析,对原变量的分布不作要求,属非参数统计方法。 最常用的Spearman秩相关。,例11-4 某地研究岁急性白血病患儿的血小板数与出血症状程度之间的相关性, 结果见表11-2,试用秩相关进行分析。,秩相关分析,编秩 计算lpp、lqq、lpq,计算Spearman秩相关系数或等级相关系数,用rs表示。,Spearm
7、an秩相关系数rs,类似于积差相关系数,它也可用来说明两个变量间相关的程度与方向。 取值介于-1之间,rs 0为正相关。 它也是总体相关系数的估计值。由样本算得的秩相关系数是否有统计学意义,也应作假设检验。,秩相关系数的假设检验,查表法(n50):rs界值表(附表14)正态近似法u检验(n50),相关系数的假设检验-查表法,建立假设,确定检验水准H0:s0,出血症状与血小板数之间无相关关系;H1:s0 ,出血症状与血小板数之间有相关关系; = 0.05。 查rs界值表(附表14): r =-0.422,|r|=0.422n=12,r0.05/2,12=0.587 确定p值,下结论P0.05 可
8、认为急性白血病患儿的出血症状与血小板数之间无相关关系。,34,某省不同地区水碘含量与甲状腺肿患病率,思考,35,某省1995年到1999年居民死因构成与WYPLL构成,思考,36,两变量关联性分析,1.对服从正态分布的两随机变量, 可绘制散点图,发现有线性趋势之后,进而计算Pearson相关系数,以此描述两变量的线性相关性; 2.对不满足正态分布的两随机变量,仍可绘制散点图, 发现有递增或递降趋势之后,可采用Spearman秩相关系数来描述两变量的线性相关性; 3.对两个反映属性的分类变量, 若有一份随机样本, 可作交叉分类的频数表,利用关于独立性的x2检验和列联系数来描述关联性。,分类变量的
9、关联性分析,交叉分类22表的关联分析 22配对资料的关联性分析 RC表分类资料的关联性分析,38,例11-6 为研究吸烟方式是否患慢性支气管炎有关,某研究者随机调查了200例年龄相仿的吸烟者, 对每个个体分别观察吸烟方式和慢性支气管炎与否两种属性,22种结果分类记数如表11-3所示。试分析两种属性的关联性。,39,四格表资料的2检验,表3 慢性咽炎两种药物疗效频数表资料,例11-6 为研究吸烟方式是否患慢性支气管炎有关,某研究者随机调查了200例年龄相仿的吸烟者, 对每个个体分别观察吸烟方式和慢性支气管炎与否两种属性,22种结果分类记数如表11-3所示。试分析两种属性的关联性。,一个样本,41
10、,联合概率,边际概率,两属性X和Y互相独立:属性X的概率分布与属性Y的概率分布无关,在交叉分类表中每一格子中联合概率等于相应属性的边际概率的乘积:,42,例11-6 为研究吸烟方式是否患慢性支气管炎有关,某研究者随机调查了200例年龄相仿的吸烟者, 对每个个体分别观察吸烟方式和慢性支气管炎与否两种属性,22种结果分类记数如表11-3所示。试分析两种属性的关联性。,建立假设,确定检验水准H0:吸烟方式与慢性支气管炎之间互相独立 H1:吸烟方式与慢性支气管炎之间有关联=0.05 计算检验统计量:确定P值,下结论p0.05,说明吸烟方式与慢性支气管炎之间存在着关联性。 计算Pearson列联系数:,
11、假设检验?,44,分类资料的关联性分析与频数分布的假设检验,检验公式、理论频数计算公式和自由度的计算公式完全相同。 研究目的、设计方案、数据结构以及最后对于结果的解释都是不同的。,45,注意: 双向无序分类资料为两个或多个样本,做差别检验;若为单样本,做关联性检验。决定于研究者的实验设计。,46,例11-6 为研究吸烟方式是否患慢性支气管炎有关,某研究者随机调查了200例年龄相仿的吸烟者, 对每个个体分别观察吸烟方式和慢性支气管炎与否两种属性,22种结果分类记数如表11-3所示。试分析两种属性的关联性。,47,四格表资料的2检验,表3 慢性咽炎两种药物疗效频数表资料,例11-7 有28份咽喉涂
12、抹标本,把每份标本一分为二, 依同样的条件分别接种于甲、乙两种白喉杆菌培养基上,观察白喉杆菌生长的情况,结果如表11-5,问两种培养基的结果有无关联?,配对资料,建立假设,确定检验水准H0:两种培养基的结果之间互相独立H1:两种培养基的结果之间互相关联=0.05 计算检验统计量:确定P值,下结论p0.05,可认为甲、乙两种培养基之间存在关联性。 计算列联系数:,例11-8 某地居民主要有三种祖籍,均流行甲状腺肿。为探讨甲状腺肿类型与祖籍是否有关联,现根据居民甲状腺肿筛查结果,按甲状腺肿类型与祖籍两种属性交叉分类,得表11-6的资料。问甲状腺肿类型与祖籍间有否关联?,33表,一个样本,建立假设,
13、确定检验水准H0:甲状腺肿类型与祖籍无关H1:甲状腺肿类型与祖籍有关联=0.05 计算检验统计量:v=(3-1)(3-1)=4 (x20.05,4=9.49) 确定P值,下结论p0.05,可认为甲状腺肿类型与祖籍有关联性。 计算列联系数:,例11-9 某省随机抽查了1043位居民的ABO血型与MN血型,资料如表11-7所示。问两种血型之间有无关联性?,43表,一个样本,建立假设,确定检验水准H0:两种血型系统之间无关 H1:两种血型系统之间有关 =0.05 计算检验统计量:v=(4-1)(3-1)=6 (x20.05,6=12.59) 确定P值,下结论p0.05,可认为两种血型系统之间有关联性
14、。 计算列联系数:,54,年龄与冠状动脉硬化的关系,思考,55,RC表的分类及其检验方法的选择,RC表可以分为双向无序、单向有序、双向有序属性相同和双向有序属性不同等4类。1双向无序RC表 表中两个分类变量皆为无序分类变量,对于该类资料,若研究目的为多个样本率(或构成比)的比较,可用行列表资料的2检验;若为单个样本,研究目的为分析两个分类变量之间有无关联性以及关系的密切程度时,可用行列表资料的2检验以及Pearson列联系数进行分析。,小结,56, 三种疗法有效率的比较,57, 某地5801人的血型,58,注意: 双向无序分类资料为两个或多个样本,做差别检验;若为单样本,做关联性检验。决定于研
15、究者的实验设计。,59,2单向有序RC表 有两种形式。一种是表中的分组变量(如年龄)是有序的,而指标变量(如传染病的类型)是无序的。其研究目的通常是分析不同年龄组各种传染病的构成情况,可用行列表资料的2检验进行分析。另一种情况是表中的分组变量(如疗法)为无序的,而指标变量(如疗效按等级分组)是有序的。其研究目的为比较不同疗法的疗效,宜用秩和检验进行分析。,60, 不同年龄的传染病类型的比较,61,三种疗法疗效的比较,62,3双向有序属性相同的RC表 表中的两分类变量皆为有序且属性相同。实际上是22配对设计的扩展,即水平数3的诊断试验配伍设计,如用两种检测方法同时对同一批样品的测定结果。其研究目的通常是分析两种检测方法的一致性,此时宜用一致性检验(或称Kappa检验)。,63,两种方法检查结果,64,4双向有序属性不同的RC表 RC表中两分类变量皆为有序的,但属性不同。对于该类资料,若研究目的为分析不同年龄组患者疗效之间有无差别时,可把它视为单向有序RC表资料,选用秩和检验;若研究目的为分析两有序分类变量间是否存在相关关系,宜用等级相关分析。,65,年龄与冠状动脉硬化的关系,