收藏 分享(赏)

双变量关联性分析.doc

上传人:buyk185 文档编号:4210824 上传时间:2018-12-15 格式:DOC 页数:14 大小:630.50KB
下载 相关 举报
双变量关联性分析.doc_第1页
第1页 / 共14页
双变量关联性分析.doc_第2页
第2页 / 共14页
双变量关联性分析.doc_第3页
第3页 / 共14页
双变量关联性分析.doc_第4页
第4页 / 共14页
双变量关联性分析.doc_第5页
第5页 / 共14页
点击查看更多>>
资源描述

1、第十三章 双变量关联性分析13-1第十三章 双变量关联性分析 在医学研究中,常会观察到两个变量之间在数量上存在某种协同变化的关系,例如随着体内凝血酶浓度的升高,其凝血时间随之降低等。这类关系在统计学上称为两个随机变量之间的关联性。如何判断两变量间的关联性是否确实存在,以及如何描述关联的方向与密切程度是本章所要介绍的内容。需要指出的是,关联性只反映变量间数量上的关系,但数量上的关联并不表示专业上的因果关系,其是否反映了变量间的因果关系还需其他手段加以确认。本章介绍两个定量变量间的直线相关和两个分类变量间关联性的统计分析方法。第一节 直线相关一、直线相关的概念及其统计描述例 13.1 某医师测量了

2、 15 名正常成年人的体重(kg)与 CT 双肾体积(ml)大小,数据如表 13.1 所示。据此回答两变量是否有关联?其方向与密切程度如何? 表 13.1 15 名正常成年人体重和双肾体积的测量值编号 体重(kg) 双肾体积(ml)1 43 217.222 74 316.183 51 231.114 58 220.965 50 254.706 65 293.847 54 263.288 57 271.739 67 263.4610 69 276.5311 80 341.1512 48 261.0013 38 213.2014 85 315.1215 54 252.08初步判断两变量间关系最直观

3、有效的方法就是在平面直角坐标系中绘图,其中一个变量用 表示,另一变量用 表示,在平面直角坐标系中可绘制这些xy第十三章 双变量关联性分析13-2实测点的分布情况,称为散点图(scatter plot),如图 13.1 所示。体重 (kg) x图 13.1 15 名正常成年人体重和双肾体积的散点图由上图可见,两变量的散点分布大致呈直线趋势,其数量变化的方向相同。在统计学上两个随机变量之间呈直线趋势的关系被称为直线相关(linear correlation),又称简单相关 (simple correlation),其性质可由图 13.2 所示散点图作直观说明。(a) (b) (c) (d)图 13

4、.2 常见的散点图图 13.2(a)、(b)中散点近似呈椭圆形分布,其变化趋势接近一直线,其中图13.2(a)中两变量同时增大或减小,变化趋势同向,称为正相关(positive correlation)。图 13.2(b)中一个变量随着另一个变量的增大而减小,变化趋势相反,称为负相关(negative correlation)。如全部数据点恰好散布在一条直线上,称为完全相关,这种特殊情况在实际医学研究中并不存在。图 13.2(c)中各点总的趋势杂乱无章或大致呈圆形散布,则该两变量间无相关,也称零相关(zero correlation)。图 13.2(d)中各点散布也非直线趋势,亦属无相关,由于

5、统计学中提到的相关通常是指直线相关,故无相关是指无直线关系,但可能存在非直线相关。双肾体积 (ml)yxy第十三章 双变量关联性分析13-3二、相关系数的意义及计算定量描述两个变量间直线关系的方向和密切程度的指标,称为直线相关系数(linear correlation coefficient),又称 Pearson 积矩相关系数 (Pearson product moment coefficient),其公式为:(13.1)22()()xyxylr-=-2222/()/()/xynx-相关系数 没有单位,取值范围在 之间,其正负表示两变量间直线相r1,关的方向,大于 0 为正相关,小于 0 为

6、负相关,等于 0 为零相关。相关系数的绝对值大小表示两变量间直线相关的密切程度,绝对值越接近于 1,说明相关密切程度越高;绝对值越接近于 0,说明相关密切程度越低。现结合图 13.1 解释相关系数的含义。经横纵坐标上 与 处两条相互垂直xy的直线可将此图分为 4 个象限,若两变量呈正相关,多数数据处于第一、三象限,此时式(13.1) 的分子为正 数, ;若两变量呈负相关,多数数据处于第0r二、四象限,此时式(13.1)的分子为负数, 。其中一个极端是所有数据均 0 为正相关。类似于直线1,-sr相关,秩相关系数 是总体秩相关系数 的估计值。srs计算 Spearman 秩相关系数可将 n 对实

7、测值 与 ( =1,2,3, )分别从小ixiyn到大编秩( 相同秩次取平均值),然后将秩次代入式(13.1)得到。例 13.4 某研究者对 15 例 3050 岁成年男子的舒张压(mmHg) 与夜间最低血氧含量分级进行研究,结果见表 13.2,试分析两者的关联性。第十三章 双变量关联性分析13-8表 13.2 15 例成年男子的舒张压与夜间最低血氧含量分级测量值 编号 舒张压 x秩次pi夜间最低血氧含量分级 y秩次qi(1) (2) (3) (4) (5)1 75 1 1 22 80 2.5 1 23 80 2.5 2 5.54 90 5.5 1 2.05 90 5.5 2 5.56 90

8、5.5 2 5.57 90 5.5 3 9.58 95 8.5 2 5.59 95 8.5 3 9.510 100 10.5 3 9.511 100 10.5 3 9.512 110 12 4 13.513 115 13 4 13.514 120 14 4 13.515 125 15 4 13.5合计 120 120将两变量 x、 y 成对的观察值分别从小到大编秩,以 pi 表示 xi 的秩次,q i 表示 yi 的秩次,分别见表 13.2 中第(3)、(5)栏,观察值相同的取平均秩;将 、ip直接替换式(13.1) 中的 x 和 y,即用秩次作为分析变量值,直接计算 Pearsoniq积矩相

9、关系数。 22()/73.5piilpn60qiiq()/4.piiil0.897qsprl判断由样本算得的秩相关系数是否有统计学意义,也应作假设检验。二、秩相关系数的假设检验总体秩相关系数 的假设检验,可用以下方法进行推断:当 50 时,可查s n等级相关系数界值表(附表 15),若 超过临界值,则拒绝 ;当 50 时,则sr0H第十三章 双变量关联性分析13-9采用式(13.4) 和式(13.5) 作 t 检验。例 13.5 对例 13.4 的秩相关系数作假设检验。(1) 建立检验假设,确定检验水准: ,即舒张压与夜间最低血氧含量分级无相关关系 0Hs: ,即舒张压与夜间最低血氧含量分级有

10、相关关系15.(2) 计算检验统计量 0.897pqslr(3) 确定 P 值,作出统计推断本例中 ,查等级相关系数界值表(附表 15),得150n=0.779,P0.001,按 水准,拒绝 ,接受 ,可以认为15,0.|sr05.0H1舒张压与夜间最低血氧含量分级之间有正相关关系。第三节 分类变量的关联性分析两个定量变量的关联性可用 Pearson 积矩相关系数或秩相关系数来描述;而两个分类变量间的关联性可用 Pearson 列联系数(contingency coefficient)等统计量来描述,其假设检验可采用列联表(contingency table)的独立性 检验。2一、 22 列联

11、表的关联性分析例 13.6 为研究青少年在校情况与对艾滋病知晓情况之间的关系,某研究者在某地共调查了 384 名青少年,并对每名青少年按是否在校和对艾滋病是否知晓两种属性交叉分类,如表 13.3 所示。试问两变量是否存在关联性?表 13.3 某地青少年是否在校与对艾滋病是否知晓的交叉分类表是否知晓是否在校是 否合 计是 156 62 218否 27 139 166合 计 183 201 384本例中,关联性问题对应的检验假设: :青少年是否在校与对艾滋病是否0H第十三章 双变量关联性分析13-10知晓之间互相独立; :青少年是否在校与对艾滋病是否知晓之间互相关联。1H两变量 和 互相独立,即指

12、变量 x 的概率分布与变量 y 的概率分布无关,xy否则称这两变量之间存在关联性。根据随机事件独立性的定义,若两个随机事件同时发生的联合概率等于每个事件发生的边际概率相乘,则两随机事件是相互独立的。如表 13.3 中,无论在校与否,是否知晓艾滋病的概率称为各自的边际概率( 可用 和 来估计)。同样,无论是否知晓艾156270.483621390.5滋病,在校与否的概率也称为各自的边际概率(可用 和1620.57384来估计)。于是在独立性假定满足的条件下, “是否在校”和“对27190.438艾滋病是否知晓”组成的四种情况下的联合概率就等于相应边际概率的乘积。如在校且同时知晓艾滋病的联合概率为

13、在校的边际概率与知晓艾滋病的边际概率相乘 ,余类推。(218/34)(/8)0.27为了便于公式表示,将 22 列联表的一般形式整理如表 13.4。表中 为两ijA变量不同水平组合下( )的实际观察频数, 为相应的联合概率; 为变量,ijxyijin取水平 时的合计频数, 为相应边际概率; 为变量 取水平 时的合计xirijmyj频数, 为相应边际概率, =1,2, =1,2, = = ,cjj21n21。1212rc表 13.4 22 列联表的一般形式及概率表达1y2y合 计1x( )A ( )1A( )1nr2( )21 ( )2 ( )2合 计 ( )mc ( )mc(1)这里进行关联性

14、检验的统计量仍为第十一章中的 拟合优度统计量:222() ijijAT其中, 为实际频数, 为理论频数。 成立时,该统计量服从 分布。ijAijT0H2此公式中理论频数的计算如下:第十三章 双变量关联性分析13-11若独立性假设 成立,则两变量不同水平组合所对应的在表 13.4 每一格0H子中的联合概率等于相应变量的边际概率的乘积:(13.9)2,1jicjriij若分别用 和 来估计边际概率 和 ,代入(13.9) 式,得到各联合概injmricj率估计值:,12jiijnij例如前述在校且同时知晓艾滋病的联合概率 为在校的边际概率1与知晓艾滋病的边际概率 相乘为12834rn 834cmn

15、12 0.27384n于是,在 成立的条件下,理论频数 的估计公式为0HijT(13.10) ,12ijijijnmT不难看出,此 值的计算与两样本率比较的 检验公式(11.2)完全一样。2四格表的专用公式(11.5) 也仍然适用。在计算理论频数的过程中,由于用样本估计值代替了两个独立参数 和 ,故此处 分布的自由度为其计算公式中累1rc2计求和次数减 1 再减去所估计参数个数,即 或 。141)2(现就例 13.6 的数据作两变量关联性分析。(1) 建立检验假设,确定检验水准:青少年是否在校与对艾滋病是否知晓之间互相独立0H:青少年是否在校与对艾滋病是否知晓之间互相 关联15.(2) 计算检

16、验统计量将表 13.3 中数据代入式(11.5)得到: 2 22)(156397)38415.0()2810adbcnd第十三章 双变量关联性分析13-121(3) 确定 P 值,作出统计推断查 界值表(附表 9),得 , ,按 水准,220.5,7.80.5P05.拒绝 0H,接受 1,可以认为青少年是否在校与对艾滋病是否知晓之间有关联。关于两个分类变量关联的程度,我们可用 Pearson 列联系数来描述,其计算公式为(13.11) nr2本例中,Pearson 列联系数为:215.08.413rn列联系数介于 0 和 1 之间, 理论上也应对总体列联系数是否不等于 0 作假设检验,但这个检

17、验等价于上述两分类变量独立性的 检验。2需要特别强调的是,虽然表 13.3 的数据和第十一章中两样本率比较的四格表数据看上去非常相似,甚至 检验公式及应用条件也完全相同,但在抽样机2制和所回答问题上二者却有着根本区别。两样本率比较是从两个总体中分别抽取样本( 区分两总体的分组变量不必是随机变量),两样本有各自的频数分布,所检验的是两个总体的概率分布是否不同。而这里的分类变量关联性与前述直线相关一样,是从同一个总体中进行随机抽样,对样本中的每个个体,考察其两种属性的关系,要检验的是两个分类变量之间是否存在关联性或者说是否独立。二、RC 列联表的关联性分析例 13.7 为研究自我效能感与领导行为类

18、型是否有关,某研究者抽样调查了来自某省各三甲医院的 238 名护士长,并对每个个体按自我效能感和领导行为类型两种属性交叉分类,如表 13.5 所示。试分析两变量的关联性。表 13.5 自我效能感与领导行为交叉分类表领导行为类型自我效能感pm pM Pm PM 合计第十三章 双变量关联性分析13-13低 67 25 13 17 122高 32 12 34 38 116合计 99 37 47 55 238(1) 建立检验假设,确定检验水准:自我效能感与领导行为类型之间无关联0H:自我效能感与领导行为类型之间有关联15.(2) 计算检验统计量将表 13.5 数据代入式(11.8)计算 值:22222

19、2222(1)67513731389456974)13.2()RCAn (3) 确定 P 值,作出统计推断查 界值表(附表 9), , ,按 水准,220.5,12.840.5P05.拒绝 0H,接受 1,可以认为自我效能感与领导行为类型之间有关联,其列联系数为234.210.358rn小 结1两变量关联性分析的目的在于推断从某一总体中随机抽取的同一份样本观测出的两个变量间是否存在关联性,以及这种关联性的密切程度如何,这种关联并不表示专业上的因果关系。2对于服从二元正态分布的同一样本中两个定量变量,须先作散点图,观察到存在线性趋势后方可计算 Pearson 相关系数;对于不服从正态分布的资料或

20、有序分类变量,应采用 Spearman 秩相关系数来分析其关联性;对于两个反映第十三章 双变量关联性分析13-14属性的分类变量,可作交叉分类的频数表,用 Pearson 列联系数和独立性 检2验来分析其关联性。3在研究设计上,用于关联性分析的两个变量应均为随机变量,关联性是对两随机变量是否独立进行推断。对于直线相关或秩相关分析,若其中一个变量是人为设定的,不宜作关联性分析。若两个分类变量中其中之一为固定分组,比较组间频率分布是否相同,其统计推断计算公式与关联性分析的独立性 检2验所用公式恰好相同,但不宜计算 Pearson 列联系数或讨论关联性。关联性分析所回答的问题是同一样本两种属性之间是否独立,而非比较不同总体的频率分布是否不同。(王彤)

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 大学论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报