收藏 分享(赏)

SPSS学习系列24.-卡方检验.docx

上传人:weiwoduzun 文档编号:4384053 上传时间:2018-12-26 格式:DOCX 页数:24 大小:976.42KB
下载 相关 举报
SPSS学习系列24.-卡方检验.docx_第1页
第1页 / 共24页
SPSS学习系列24.-卡方检验.docx_第2页
第2页 / 共24页
SPSS学习系列24.-卡方检验.docx_第3页
第3页 / 共24页
SPSS学习系列24.-卡方检验.docx_第4页
第4页 / 共24页
SPSS学习系列24.-卡方检验.docx_第5页
第5页 / 共24页
点击查看更多>>
资源描述

1、24. 卡方检验卡方检验,是针对无序分类变量的一种非参数检验,其理论依据是:实际观察频数 f0与理论频数 fe(又称期望频数)之差的平方再除以理论频数所得的统计量,近似服从 分布,即2)( nfe02)(卡方检验的一般是用来检验无序分类变量的实际观察频数和理论频数分布之间是否存在显著差异,二者差异越小, 值越小。2卡方检验要求:(1)分类相互排斥,互不包容;(2)观察值相互独立;(3) 样本容量不宜太小,理论频数5,否则需要进行校正(合并单元格、增加样本数、去除样本法、使用校正公式校正卡方值) 。卡方校正公式为: ef202)5.(卡方检验的原假设 H0: = 0; 备择假设 H1: 0;2卡

2、方检验的用途:(1)检验某连续变量的数据是否服从某种分布(拟合优度检验);(2)检验某分类变量各类的出现概率是否等于指定概率;(3)检验两个分类变量是否相互独立(关联性检验) ;(4)检验控制某几个分类因素之后,其余两个分类变量是否相互独立;(5)检验两种方法的结果是否一致,例如两种方法对同一批人进行诊断,其结果是否一致。(一)检验单样本某水平概率是否等于某指定概率一、单样本案例例如,检验彩票中奖号码的分布是否服从均匀分布(概率=某常值) ;检验某产品市场份额是否比以前更大;检验某疾病的发病率是否比以前降低。有数据文件:检验“性别”的男女比例是否相同(各占 1/2) 。1. 【分析】【非参数检

3、验】【单样本 】 ,打开“单样本非参数检验”窗口, 【目标】界面勾选“自动比较观察数据和假设数据”2.【 字段 】 界面,勾选“使用定制字段分配” ,将变量“性别”选入【检验字段】框;注意:变量“性别”的度量标准必须改为“名义”类型。3. 【设置】界面,选择“自定义检验” ,勾选“比较观察可能性和假设可能性(卡方检验) ”;4. 点【选项】 ,打开“卡方检验选项”子窗口,本例要检验男女概率都=0.5,勾选“所有类别概率相等” ;注:若有类别概率不等,需要勾选“自定义期望概率” ,在其表中设置各类别水平及相应概率。点【确定】回到原窗口,点【运行】得到双击上表,得到更多的描述:结果说明:(1)男生

4、的观察频数为28,理论频数为25,残差=3;女生的观察频数为22,理论频数为25,残差=-3;可以计算卡方值=3 2+(-3)2/25=0.72(2)卡方检验的 P 值=0.3960.05, 故接受原假设 H0,即认为男女性别人数无差异。注:卡方检验的 P 值是近似 P 值,若用“二项分布检验”计算出精确 P 值 =0.480. 另外,上述卡方检验也可以用: 【分析】【非参数检验】【旧对话框】【卡方】得到的结果是一致的。二、两样本或多样本案例比较不同类的构成比或发生率的差异问题:两组收入不同的受访家庭其轿车拥有率的比较。使用【交叉表】的卡方检验来实现,需要注意:若交叉表中存在有序分类变量,则适

5、合用秩和检验而不是卡方检验。有数据文件:变量 O1 表示是否拥有轿车:“1=有,2= 没有” ;变量 Ts9 表示收入级别:“1=4.8 万以上,2=4.8 万以上” 。1. 【分析】【描述统计】【交叉表】 ,打开“交叉表”窗口,将变量“Ts9 收入级别”选入【行】 框,将变量“O1 是否拥有轿车”选入【列】框,根据需要勾选“显示复式条形图” ;2. 点【统计量】 ,打开“统计量”子窗口,勾选“卡方”表示进行卡方检验;3. 点【继续】回到原窗口,点【单元格】打开“单元显示”窗口, 【计数】输出观察频数和理论频数,默认勾选“观察值” ;【百分比】勾选“行” ;【非整数权重】设置小数权重问题,保持

6、默认;注:“残差”设置残差的输出方式;“z-检验 ”对多于两组的数据做两两组间比较;点【继续】回到原窗口,点【确定】得到案例处理摘要案例有效的 缺失 合计N 百分比 N 百分比 N 百分比家庭收入2级 * O1. 是否拥有家用轿车989 86.2% 158 13.8% 1147 100.0%家庭收入2级* O1. 是否拥有家用轿车 交叉制表O1. 是否拥有家用轿车有 没有合计计数 32 303 335Below 48,000家庭收入2级 中的 % 9.6% 90.4% 100.0%计数 225 429 654家庭收入2级Over 48,000家庭收入2级 中的 % 34.4% 65.6% 10

7、0.0%计数 257 732 989合计家庭收入2级 中的 % 26.0% 74.0% 100.0%低收入家庭有9.6%拥有轿车;高收入家庭34.4% 拥有轿车。卡方检验值 df 渐进 Sig. (双侧) 精确 Sig.(双侧) 精确 Sig.(单侧)Pearson 卡方 71.134a 1 .000连续校正 b 69.848 1 .000似然比 80.146 1 .000Fisher 的精确检验 .000 .000线性和线性组合 71.062 1 .000有效案例中的 N 989a. 0 单元格(0.0%) 的期望计数少于 5。最小期望计数为 87.05。b. 仅对 2x2 表计算脚注a说明

8、没有单元格的期望频数40, 所有期望频数都1, 只有 1/5以下的单元格期望频数 1, 则表明实验因素更容易导致结果为阳性,或者说“采用的实验因素”与“结果为阳性”有关联。注:当反应阳性概率0.1 时,OR 可作为 RR 的近似。优势比是两个比数之比,例如,女性购买与不购买某产品的比数是男性该比数的 3 倍。问题:描述家庭收入级别与拥有轿车的关联程度1. 【分析】【描述统计】【交叉表】 ,打开“交叉表”窗口,将变量“Ts9 收入级别”选入【行】 框,将变量 “O1 是否拥有轿车”选入【列】框;2. 点【统计量】 ,打开“统计量”子窗口,勾选“风险”用来计算 OR 值和 RR 值;点【继续】回到

9、原窗口,点【确定】得到家庭收入2级* O1. 是否拥有家用轿车 交叉制表O1. 是否拥有家用轿车有 没有合计计数 32 303 335Below 48,000家庭收入2级 中的 % 9.6% 90.4% 100.0%计数 225 429 654家庭收入2级Over 48,000家庭收入2级 中的 % 34.4% 65.6% 100.0%计数 257 732 989合计家庭收入2级 中的 % 26.0% 74.0% 100.0%风险估计95% 置信区间值下限 上限家庭收入2级 (Below 48,000 / Over 48,000) 的几率比.201 .135 .300用于 cohort O1.

10、 是否拥有家用轿车 = 有.278 .196 .392用于 cohort O1. 是否拥有家用轿车 = 没有1.379 1.291 1.472有效案例中的 N 989(1)优势比OR是两个比数之比:低收入家庭拥有轿车的比例为9.6% ,没有轿车的比例是90.4%,其比数为9.6% / 90.4% = 0.106; 高收入家庭的比数为:34.4% / 65.6% = 0.524; 故OR值=0.106/0.524=0.201该值的 95%置信区间=0.135, 0.3, 不包含 1(有统计学意义) ;(2)相对危险度 RR1 是两组人群拥有轿车的概率之比,其估计值为 9.6% / 34.4% =

11、 0.278, 说明高收入家庭拥有轿车的概率是低收入家庭的 1 /0.278 = 3.597 倍,RR1 值的 95%置信区间=0.196, 0.392, 不包含 1(有统计学意义) ;(3)相对危险度 RR2 是两组人群没有轿车的概率之比,估计值为 90.4% / 65.6% = 1.379. 注:上述三个指标实际上是等价的;另外,OR 值也等于有车与无车的相对危险度之比(0.278 / 1.379 = 0.201 )。(四)分层卡方检验前文已经得到家庭收入级别会影响轿车拥有情况,那么进一步,不同城市是否存在差异?即“城市”因素是否也是影响轿车拥有的协变量?另外“学历”因素呢?分层卡方检验就

12、是解决上述问题常用的一种方法。问题:在前文的基础上,进一步在控制“城市”的影响的前提下,更准确地描述家庭收入与轿车拥有的关联程度。1.【分析】【描述统计】【交叉表】,打开“交叉表”窗口;将变量“Ts9 收入级别”选入【行】 框,将变量“O1 是否拥有轿车”选入【列】框;将变量“s1 城市” 选入【层 1 的 1】框;2. 点【统计量】 ,打开“统计量”子窗口,勾选“风险” 、“Cochrans and Mantel-Haenszel 统计量” ,点【继续】 ;点【确定】,得到结果家庭收入2级* O1. 是否拥有家用轿车* S1. 城市 交叉制表计数O1. 是否拥有家用轿车S1. 城市有 没有合

13、计Below 48,000 9 93 102家庭收入2级Over 48,000 83 134 217100北京合计 92 227 319Below 48,000 4 103 107家庭收入2级Over 48,000 70 160 230200上海合计 74 263 337Below 48,000 19 107 126家庭收入2级Over 48,000 72 135 207300广州合计 91 242 333Below 48,000 32 303 335家庭收入2级Over 48,000 225 429 654合计合计 257 732 989风险估计95% 置信区间S1. 城市 值下限 上限家庭

14、收入2级 (Below 48,000 / Over 48,000) 的几率比.156 .075 .326用于 cohort O1. 是否拥有家用轿车 = 有.231 .121 .440用于 cohort O1. 是否拥有家用轿车 = 没有1.477 1.308 1.666100北京有效案例中的 N 319家庭收入2级 (Below 48,000 / Over 48,000) 的几率比.089 .031 .251用于 cohort O1. 是否拥有家用轿车 = 有.123 .046 .328用于 cohort O1. 是否拥有家用轿车 = 没有1.384 1.261 1.519200上海有效案例

15、中的 N 337家庭收入2级 (Below 48,000 / Over 48,000) 的几率比.333 .189 .586用于 cohort O1. 是否拥有家用轿车 = 有.434 .275 .683用于 cohort O1. 是否拥有家用轿车 = 没有1.302 1.151 1.474300广州有效案例中的 N 333家庭收入2级 (Below 48,000 / Over 48,000) 的几率比.201 .135 .300用于 cohort O1. 是否拥有家用轿车 = 有.278 .196 .392用于 cohort O1. 是否拥有家用轿车 = 没有1.379 1.291 1.47

16、2合计有效案例中的 N 989由于设置了分层变量,故按分层变量的水平值单独对每一层进行风险估计。上海的OR值=0.089,而广州的OR值=0.333,说明是有地区差异的。几率比的均一性检验卡方 df 渐进 Sig. (双侧)Breslow-Day 6.165 2 .046Tarone 的 6.161 2 .046层间差异的检查结果(不同城市家庭收入与轿车拥有的联系是否相同),原假设H 0: 层间无差异;P值=0.0460.05, 拒绝原假设H 0, 即不同城市是有差异的,因此不能简单地将不同城市数据总体处理得到结果。条件的独立性检验卡方 df 渐进 Sig. (双侧)Cochran 的 72.

17、397 1 .000Mantel-Haenszel 70.879 1 .000在条件的独立性假定下,仅当层数固定时 Cochran 的统计量才渐进分布为 1 df 卡方分布,而 Mantel-Haenszel 统计量始终渐进分布为 1 df 卡方分布。注意,当观测值和期望值差值之和为 0 时,将从 Mantel-Haenszel 统计量中删除连续校正。分层卡方检验(即去除分层因素“城市”的影响之后,家庭收入与轿车拥有的关联性)的两种结果:CMH卡方检验和MH卡方检验,前者是后者的改进。P值=00.05, 说明“家庭收入”与“轿车拥有”有关联,但由于前面检验的层间差异有统计学意义,所以这个结论仅

18、供参考。Mantel-Haenszel 一般几率比估计估计 .195ln(估计) -1.636ln (估计) 的标准误差 .206渐进 Sig. (双侧) .000下限 .130一般几率比上限 .292下限 -2.040渐进 .95% 置信区间ln (一般几率比)上限 -1.232Mantel-Haenszel 一般几率比估计在 1.000 假定的一般几率比下渐进地正态分布。因此是估计的自然对数。给出了调整了分层因素作用后的综合 OR 值:OR MH 值=0.195(原 OR 值=0.201),P 值=00.05, 说明结果显著。注:(1)分层卡方检验是一种很好的控制其他因素的方法,从而能得到

19、更准确的结果,若样本量足够大还可用引入更多的分层。(2)SPSS 的 CMH 卡方检验只能进行两分类变量检验,而不能进行多分类变量的检验;当分层变量和要分析的变量存在交互作用时,分层卡方检验就不再适用,此时应当考虑用对数线性模型或Logistic 模型来进行更为深入和准确的分析 。(五)配对设计列联表的 Kappa 一致检验以及配对卡方检验一、Kappa 一致检验配对设计列联表的行变量和列变量反应的是同一事物的同一属性的相同水平,只是对该属性各水平的区分方法不同。例如,某疾病的诊断结果表,行变量为一种诊断方法,列变量为另一种诊断方法;对某事物的评价等级表,行变量和列变量分别显示不同专家的评价。

20、对于配对设计列联表,希望检验两种方法给出的结果是否一致,适合用 Kappa 一致检验。注意:Pearson 卡方检验只能检验两种测量结果之间是否存在关联,不能判断其是否具有一致性。问题:某公司扩展业务开新分店选址,请两位顾问分别对 20 个地址进行评价,分为好、中、差 3 个等级,想知道两人的评价结果是否一致?count=频数, cons1,cons2 表示两位顾问的评价:1= 差,2=中,3=好;例如第一行数据: 6,1,1 表示两顾问都评为“差”的有 6 个地址。1. 【数据】【加权个案】 ,打开“加权个案”窗口,勾选“加权个案” ,将变量“频数”选入【频率变量】框,点【确定】2. 【分析

21、】【统计描述】【交叉表】 ,打开“交叉表”窗口,将变量“cons1,cons2 ”分别选入【 行】 【列】框;3. 点 【统计量 】 ,打开 “统计量”子窗口,勾选 “Kappa”,点【继续】 ;4. 由于数据量较小才用精确检验,点【精确】 ,打开“精确检验”子窗口,勾选“精确” ,点【继续】 ;点【确定】得到顾问一的评价* 顾问二的评价 交叉制表计数顾问二的评价差 中 好合计差 6 0 0 6中 5 2 2 9顾问一的评价好 1 0 4 5合计 12 2 6 20对称度量值 渐进标准误差 a 近似值 T b 近似值 Sig. 精确 Sig.一致性度量 Kappa .429 .131 3.33

22、3 .001 .001有效案例中的 N 20a. 不假定零假设。b. 使用渐进标准误差假定零假设。结果说明:Kappa检验的原假设 H0: Kappa值=0, 即两者完全不一致;本例中,P 值=0.0010.05, 拒绝原假设H 0, 即认为结果存在一致性。注:(1)Kappa 值,即内部一致性系数。根据经验,一般当Kappa值 0.75时,认为一致性较好;0.4Kappa 值0.75时,一致性一般;Kappa 值0.4时,一致性较差;(2)一致性检验在医学上应用较多(简单异形的诊断方法是否能替代操作复杂的诊断方法) ;数据分析中,比较两种预测结果的一致性时,也可能用到一致性检验。二、McNemar 配对卡方检验两位顾问的评价似乎不太一样,如何加以分析?McNemar 配对卡方检验适合解决该问题。在 Kappa 一致检验的第 3 步,勾选“McNemar”即可。得到结果:卡方检验值 df 渐进 Sig. (双侧)McNemar-Bowker 检验 8.000 3 .046有效案例中的 N 20原假设H 0: 两顾问的评价无差别,P值=0.0460.05, 拒绝原假设H0,即两者评价有差别。注:Kappa 一致检验会利用列联表的全部信息;McNemar 配对卡方检验只利用非主对角线单元格的信息(更关心两者的差异)。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 经营企划

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报