1、数据分析 (方法与案例),2018-9-29,我们是无知的,所以让我们学习吧!Karl Pearson,统计名言,第 7 章 分类变量的推断,7.1 一个分类变量的拟合优度检验 7.2 两个分类变量的独立性检验 7.3 两个分类变量的相关性度量,c2,test,2018-9-29,学习目标,一个分类变量的拟合优度检验 两个分类变量的独立性检验 应用2检验应注意的问题 两个分类变量的相关性度量 用SPSS进行2检验,2018-9-29,性别与是否逃课有关系吗?,读完四年大学,一次课也没有逃过,这样的学生恐怕不多 2004年5月,中国人民大学财政金融学院的3名学生就逃课问题做了一次调查。调查的对象
2、是财政金融学院的大一,大二,大三本科生。样本的抽取方式是分层抽样与简单随机抽样结合,先根据年级划分层次,然后对各个班级简单随机抽样,共抽取150名学生组成一个样本,并对每个学生采用问卷调查。问卷内容包括每周逃课次数、所逃课程的类型(选修课、专业课等等)和逃课原因等。调查得到的男女学生逃课情况的汇总表如下,2018-9-29,性别与是否逃课有关系吗?,这里涉及到两个分类变量,一个是逃课情况,一个是性别 根据上面的数据,你认为性别与逃课与否有关系吗?如何来检验两个分类变量之间是否存在关系呢? 学完本章内容就很容易解决这样的问题,7.1 一个分类变量的拟合优度检验7.1.1 期望频数相等 7.1.2
3、 期望频数不等,第 7 章 分类变量的推断,2018-9-29,利用Pearson-2统计量来判断某个分类变量各类别的观察频数分布与某一理论分布或期望分布是否一致的检验方法 比如,各月份的产品销售量是否符合均匀分布 不同地区的离婚率是否有显著差异 也称为一致性检验(test of homogeneity) 该检验也可用于判断各类别的观察频数分布是否符合泊松分布或正态分布等,什么是拟合优度检验? (goodness of fit test),7.1.1 期望频数相等,7.1 一个分类变量的拟合优度检验,2018-9-29,【例7-1】为研究消费者对不同品牌的牛奶是否有明显偏好,一家调查公司抽样调
4、查了500个消费者对4个品牌的偏好情况,得到的结果如下表所示。检验消费者对牛奶品牌的偏好是否有显著差异(=0.05),拟合优度检验 (期望频数相等),2018-9-29,拟合优度检验 (期望频数相等),第1步:提出假设H0:观察频数与期望频数无显著差异(无明显偏好)H1 :观察频数与期望频数有显著差异(有明显偏好) 第2步:计算2统计量,自由度df=类别个数-1,2018-9-29,拟合优度检验 (期望频数相等),2 统计量计算表,2018-9-29,拟合优度检验 (期望频数相等),第3步:做出决策由于自由度=4-1=3,利用Excel的【CHIDIST】函数计算的统计量的P值(右尾概率)为6
5、.22366E-12,由于P值接近于0。拒绝原假设,表明消费者对牛奶品牌的偏好有显著差异,2018-9-29,拟合优度检验 (使用SPSS期望频数相等),第1步:先指定“频数”变量点击【Data】【Weight-Cases】,选择 【Weight cases by】,将“频数”(本例为人数) 选入【Frequency Variable】,点击【OK】第2步:选择菜单:【Analyze】【Nonparametric Test】【Chi Square】,进入主对话框第3步:将频数变量选入(本例为人数)【Test Variable List】。点击【OK】,用SPSS进行检验,SPSS,2018-9
6、-29,拟合优度检验 (使用SPSS),近似的显著性水平(Asymp. Sig.)即为P值。由于P值接近于0。拒绝原假设,表明消费者对牛奶品牌的偏好有显著差异,7.1.2 期望频数不等,7.1 一个分类变量的拟合优度检验,2018-9-29,【例7-2】一项针对全国的房地产价格调查表明,城镇居民对房价表示非常不满意的占15%,不满意的占45%,一般的占25%,满意的占9%,非常满意的占6%。为研究一线大城市的居民对房地产价格的满意程度,一家研究机构在某城市抽样调查300人,其中的一个问题是:“您对目前的住房价格是否满意?”调查共设非常不满意、不满意、一般、满意、非常满意5个选项。调查结果的频数
7、分布如下表所示。检验该城市居民对房屋价格满意度评价的频数与全国的调查频数是否一致,拟合优度检验 (期望频数不等),2018-9-29,拟合优度检验 (期望频数不等),第1步:提出假设H0:该城市居民对房屋价格的评价频数与全国的评价频数无显著差异 H1 :该城市居民对房屋价格的评价频数与全国的评价频数有显著差异 第2步:计算期望频数和2统计量,自由度df=类别个数-1,2018-9-29,拟合优度检验 (期望频数不等),期望频数计算表,2018-9-29,拟合优度检验 (期望频数不等),2 统计量计算表,2018-9-29,拟合优度检验 (期望频数不等),第3步:做出决策由于自由度=5-1=4,
8、利用Excel的【CHIDIST】函数计算的统计量的P值(右尾概率)为0.102662 ,由于P0.05。不拒绝原假设,没有证据表明该城市居民对房屋价格满意度的评价与全国有显著差异,2018-9-29,拟合优度检验 (使用SPSS期望频数不等),第1步:先指定“频数”变量 第2步:选择菜单:【Analyze】【Nonparametric Test】【Chi Square】,进入主对话框 第3步:将频数变量选入【Test Variable List】 第4步:在【Expected Values】下选择【Values】,并将相应的期望比例(本例为全国的调查比例)依次输入到框内并点击【Add】(每次
9、只能输入1个,并点击【Add】,然后在输入另一个,再点击【Add】)。点击【OK】,用SPSS进行检验,SPSS,2018-9-29,拟合优度检验 (使用SPSS),近似的显著性水平(Asymp. Sig.)即为P值。由于P0.05。不拒绝原假设,没有证据表明该城市居民对房屋价格满意度的评价与全国有显著差异,7.2 两个分类变量的独立性检验7.2.1 列联表与2独立性检验 7.2.2 应用2检验应注意的问题,第 7 章 分类变量的推断,7.2.1 列联表与2独立性检验,7.2 两个分类变量的独立性检验,2018-9-29,研究两个分类变量时,每个变量有多个类别,通常将两个变量多个类别的频数用交
10、叉表的形式表示出来 一个变量放在行(row)的位置,称为行变量,其类别数(行数)用r表示 另一个变量放在列(column)的位置,称为列变量,其类别数(列数)用c表示 这种由两个或两个以上分类变量交叉分类的频数分布表称为列联表(contingency table) 一个由r行和c列组成的列联表也称为rc列联表 例如,本章开头的案例中,行变量“逃课情况”有两个类别,列变量“性别”也有两个类别,这就是一个22列联表,什么是独立性检验? (test of independence),2018-9-29,对列联表中的两个分类变量进行分析,通常是判断两个变量是否独立 该检验的原假设是:两个变量独立(无关
11、) 如果原假设被拒绝,则表明两个变量不独立,或者说两个变量相关 独立性检验的统计量为,什么是独立性检验? (test of independence),自由度df=(r-1)(c-1),2018-9-29,【例7-3】利用本章开头关于学生逃课情况调查的数据,如下表所示。检验性别与逃课情况是否独立,2 独立性检验 (例题分析),2018-9-29,2 独立性检验 (例题分析),第1步:提出假设H0:性别与是否逃课独立H1 :性别与是否逃课不独立 第2步:计算期望频数和2统计量,RT为给定单元格所在行的合计频数;CT为给定单元格所在列的合计频数;n为样本量,2018-9-29,2 独立性检验 (例
12、题分析),第2步:计算期望频数和2统计量,2018-9-29,2 独立性检验 (例题分析),第3步:做出决策由于自由度=(2-1)(2-1)=1,利用Excel的【CHIDIST】函数计算的统计量的P值(右尾概率)为0.159372 ,由于P0.05。不拒绝原假设,可以认为性别与逃课情况独立,2018-9-29,2 独立性检验 (使用SPSS), 将列联表中的数据转换为原始数据形式 第1步:选择【Analyze】【Descriptive Statistics-Crosstabs】,进入主对话框 第2步:将行变量(本例为“逃课情况”)选入【Row(s)】,将列变量 (本例为“性别”)选入【Col
13、umn(s)】(行列可以互换) 第3步:点击【Statistics】并选中【Chi-square】;点击【Continue】返回主对话框点击【Cells】,在【Counts】下选中【Expected】,点击【Continue】返回主对话框。点击【OK】,用SPSS进行检验,SPSS,2018-9-29,2 独立性检验 (使用SPSS),近似的显著性水平(Asymp. Sig.)即为P值。由于P0.05。不拒绝原假设,可以认为性别与逃课情况独立,7.2.2 应用2检验应注意的问题,7.2 两个分类变量的独立性检验,2018-9-29,在应用2检验时,要求样本量应足够大,特别是每个单元格的期望频数
14、不能太小,否则应用应检验可能会得出错误的结论 从2统计量的公式可以看出,期望频数在公式的分母上,如果某个单元格的期望频数过小,统计量的值就会变大,从而导致拒绝原假设 应用2检验时对单元格的期望频数有以下要求 如果仅有两个单元格,单元格的最小期望频数不应小于5。否则不能进行2检验 单元格在两个以上时,期望频数小于5的单元格不能超过总格子数的20%,否则不能进行2检验 如果出现期望频数小于5的单元格超过20%,可以采取合并类别的办法来解决这一问题,应用2检验应注意的问题,7.3 两个分类变量的相关性度量7.3.1 系数和Cramers V系数7.3.2 列联系数,第 7 章 分类变量的推断,7.3
15、.1 系数和Cramers V系数,7.3 两个分类变量的相关性测量,2018-9-29,主要用于22列联表的相关性测量 计算公式为例73的计算结果,得到的性别与逃课情况两个变量之间的系数为0.114891。由于 很小,表明性别与逃课情况不存在相关关系。这与独立性检验的结论是一致的, 系数 ( coefficient ),2018-9-29,由Cramer提出,计算公式为 Cramers V系数的取值范围总是在01之间 当两个变量独立时,V=0;当两个变量完全相关时,V=1 如果列联表的行数或列数中有一个为2,Cramers V系数就等于 系数 例如,根据例73的计算结果,得到的性别与逃课情况
16、两个变量之间的Cramers V系数与 系数一致,Cramers V系数 (Cramers V coefficient ),7.3.2 列联系数,7.3 两个分类变量的相关性测量,2018-9-29,主要用于大于22列联表的相关性测量,用C表示 计算公式为联系数不可能大于1。当两个变量独立时,C=0,但即使两个变量完全相关,列联系数也不可能等于1,因此,对列联系数含义的解释就不够方便,列联系数 (contingency coefficient),2018-9-29,使用SPSS进行独立性度检验时,点击【Statistics】,并在【Nominal】下选中【Contingency coefficient】和【Phi and Cramers V】即可 根据例710中的数据计算的性别与逃课情况之间的3个系数如下(检验结果均不显著),相关性测量 (SPSS应用),2018-9-29,本章小节,一个分类变量的拟合优度检验 两个分类变量的独立性检验 应用2检验应注意的问题 两个分类变量的相关性度量 用SPSS进行2检验,结 束,THANKS,