收藏 分享(赏)

统计学 第9章 分类数据分析.ppt

上传人:Facebook 文档编号:3704648 上传时间:2018-11-16 格式:PPT 页数:38 大小:958KB
下载 相关 举报
统计学  第9章   分类数据分析.ppt_第1页
第1页 / 共38页
统计学  第9章   分类数据分析.ppt_第2页
第2页 / 共38页
统计学  第9章   分类数据分析.ppt_第3页
第3页 / 共38页
统计学  第9章   分类数据分析.ppt_第4页
第4页 / 共38页
统计学  第9章   分类数据分析.ppt_第5页
第5页 / 共38页
点击查看更多>>
资源描述

1、第 9 章 分类数据分析,第 9 章 分类数据分析,9.1 分类数据与c2统计量 9.2 拟合优度 检验 9.3 列联分析:独立性检验 9.4 列联分析中应注意的问题,学习目标,1. 理解分类数据与c2 统计量 掌握拟合优度检验及其应用 掌握独立性检验及其应用 掌握测度列联表中的相关性,9.1 分类数据与c2统计量,9.1.1 分类数据 9.1.2 c2统计量,9.1.1 分类数据,数据的类型与列联分析,分类数据,分类变量的结果表现为类别 例如:性别 (男, 女) 各类别用符号或数字代码来测度 使用分类或顺序尺度 你吸烟吗? 1.是;2.否 你赞成还是反对这一改革方案? 1.赞成;2.反对 对

2、分类数据的描述和分析通常使用列联表 可使用检验,9.1.2 统计量, 统计量,用于检验分类变量的拟合优度 计算公式为,作用:判断实际观察值与理论期望值是否一致。,9.2 拟合优度检验 (一个分类变量的检验),拟合优度检验 (例题分析),【例9.1】1912年4月15日,豪华巨轮泰坦尼克号与冰山相撞沉没。当时船上共有共2208人,其中男性1738人,女性470人。海难发生后,幸存者为718人,其中男性374人,女性344人,以0.05的显著性水平检验存活状况与性别是否有关。,拟合优度检验 (例题分析),解:1.提出假设:H0:观察频数与期望频数一致(无关)H1:观察频数与期望频数不一致(有关)2

3、.构建统计量:,拟合优度检验 (例题分析),3.求临界值: 自由度的计算为df=R-1R为分类变量类型的个数。在本例中,分类变量是性别,有男女两个类别,故R=2,于是自由度df=2-1=1, 经查分布表, 0.05(1)=3.8415 4.决策:拒绝H0 5.结论:说明存活状况与性别显著相关,9.3 列联分析:独立性检验,9.3.1 列联表9.3.2 独立性检验 (两个分类变量的相关(独立)性检验),9.3.1 列联表 (contingency table),检验在列联表中的应用(独立性检验),1.列联表的基本概念 (1)列联表(Contingency table)是由两个或两个以上定类变量进

4、行交叉分类的频数分布表。一般形式为:RC,注意:R行,C列;Nij表示的是第i行第j列的频数。,(2)列联表中变量的独立性:如果变量x与变量y之间没有关系,就称其相互独立。即P(AB)=P(A)P(B),独立性检验 (例题分析),【例】一种原料来自三个不同的地区,原料质量被分成三个不同等级。从这批原料中随机抽取500件进行检验,结果如下表。检验各地区与原料等级之间是否存在依赖关系( 0.05),独立性检验 (例题分析),独立性检验 (例题分析),提出假设: H0:地区与原料等级之间独立 H1:地区与原料等级之间不独立 = 0.05; df = (3-1)*(3-1)= 4 临界值(s):,统计

5、量:,决策: 在 = 0.05的水平上拒绝H0 结论: 地区和原料等级之间存在依赖关系,2.列联表独立性检验 例:检验收看节目与年龄是否有关,随机抽取100人调查。,第一步:提出假设 H0 :节目与年龄无关(相互独立) H1 :看节目与年龄有关(相互不独立) 第二步:构建统计量 利用公式: 先计算期望频数分布,如上表括号中的数据,第三步:求临界值:,(注意:列联表的df=(r-1)(c-1); 按右侧检验方法),第四步:决策:,第五步:结论:所以看节目与年龄有关。,练习题,一所大学准备采取一项学生在宿舍上网收费的措施,为了解男女学生对这一措施的看法,分别抽取了150名男学生和120名女学生调查

6、,得到的结果如下,,以显著性水平为0.05检验男女学生对上网收费的看法是否相同。,练习题分析,提出假设: H0:男女看法相同 H1:男女看法不同 =0.05,df=(2-1)(2-1)= 1 临界值:,统计量:,决策: 在 = 0.05的水平上不能拒绝H0 结论: 可以认为男女学生对上网收费的看法是相同,9.4 列联表中的相关测量,9.4.1 相关系数 9.4.2 列联相关系数 9.4.3 V 相关系数,列联表中的相关测量,品质相关 对品质数据(分类和顺序数据)之间相关程度的测度 列联表变量的相关属于品质相关 列联表相关测量的统计量主要有 相关系数 c相关系数 V 相关系数,9.4.1 相关系

7、数 (correlation coefficient),测度22列联表中数据相关程度 对于22 列联表,相关系数的值在01之间 相关系数计算公式为,9.4.1 相关系数 (原理分析),一个简化的 22 列联表,9.4.1 相关系数 (原理分析),列联表中每个单元格的期望频数分别为,将各期望频数代入 的计算公式得,9.4.1 相关系数 (原理分析),将入 相关系数的计算公式得,ad 等于 bc , = 0,表明变量X 与 Y 之间独立 若 b=0 ,c=0,或a=0 ,d=0,意味着各观察频数全部落在对角线上,此时| =1,表明变量X 与 Y 之间完全相关,列联表中变量的位置可以互换,的符号没有

8、实际意义,故取绝对值即可,9.4.2 列联相关系数 (coefficient of contingency),用于测度大于22列联表中数据的相关程度 计算公式为,c的取值范围是 0c1 c=0表明列联表中的两个变量独立 c的数值大小取决于列联表的行数和列数,并随行数和列数的增大而增大 根据不同行和列的列联表计算的列联系数不便于比较,9.4.3 V 相关系数 (V correlation coefficient),计算公式为,V的取值范围是 0V1 V= 0表明列联表中的两个变量独立 V=1表明列联表中的两个变量完全相关 不同行和列的列联表计算的列联系数不便于比较 当列联表中有一维为2,min(

9、r-1),(c-1)=1,此时V=,列联表中的相关测量 (例题分析),【例】一种原料来自三个不同地区,原料质量被分成三个不同等级。从这批原料中随机抽取500件进行检验,结果如下表。分别计算系数、c系数和V系数,并分析相关程度,列联表中的相关测量 (例题分析),解:已知n=500,19.82,列联表为33,结论:三个系数均不高,表明产地和原料等级之间的相关程度不高,、c、V 的比较,同一个列联表,、c、V 的结果会不同 不同的列联表,、c、V 的结果也不同 在对不同列联表变量之间的相关程度进行比较时,不同列联表中的行与行、列与列的个数要相同,并且采用同一种系数,本章小结,拟合优度检验 独立性检验 测度列联表中的相关性 作业:P234T9.2P234T9.3,结 束,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 高等教育 > 统计学

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报