1、第九章 列联分析,分类数据数据有三类,分类数据、顺序数据、数值数据。但后两类数据也都可以转化为分类数据。对于两个分类数据进行分析,可以用列联表 列联表的构造两个以上的变量进行交叉分类的频数分布表,称为列联表,第一节 分类数据与列联表,例:一个集团公司在四个不同的区域设有分公司,现该集团公司欲进行一项改革。从四个分公司共抽取420个样本单位,了解职工对此项改革的看法。调查结果如表所示。关于改革方案的调查结果,列联表的分布一个列联表可以看成是一个两元随机向量的分布表包含百分比的2x4列联表,检验将样本分成 n类,每类实际出现的频数用 表示,其理论频数为 ,当样本容量充分大时,则 统计量为服从分布
2、, 其中n -1为自由度,第二节 拟合优度与独立性检验,拟合优度检验利用随机样本资料,对总体是否服从某种理论分布进行的检验,称为拟合优度检验例如:航空业官员在理论上认为机票购买者的年龄服从某种特殊的分布(称为期望分布)。为了接受或拒绝该分布,随机选取机票购买者年龄的真实样本,使用拟合优度检验比较观察值与期望值又如:在皮鞋制造业,生产商可以使用拟合优度检验确定一年当中对其商品的需求是否服从均匀分布,拟合优度检验示例 例1:有四厂家生产同类产品在过去的一年里,市场份额稳定在A公司47,B公司34,公司11%和D公司8%. 最近各家公司都开发了各自“新型和改进型”的产品代替原有的产品。因此,A公司市
3、场营销部门想知道这些新产品是否改变了市场份额。于是请评估公司组织进行一个抽样调查:随机选择了该城市在各大超市购物的207个消费者,以了解他们会选择哪种产品。结果选用A、B、C、D公司产品的消费者比例为从抽样结果判断市场份额有没有发生变化,拟合优度检验示例(续) 例2:某消费者协会想确定市场上5种牌子的啤酒哪一种最受消费者欢迎。该协会随机抽取1000名啤酒饮用者作为样本进行如下的实验:每个人得到5种牌子的啤酒各一瓶,但都未标明牌子;这5瓶啤酒分别贴着标有A、B、C、D、E字母的纸片以随机确定的顺序送给每一个人。下表是根据样本资料整理得到的各种牌子啤酒爱好者的频数分布。判断消费者对这几种牌子的爱好
4、有没有差别.,拟合优度检验的步骤,(1)对总体分布建立假设 H0:总体服从某种理论分布 H1:总体不服从该理论分布,(2)抽样并对样本资料编成频数分布(f0),(3)以“原假设H0为真”导出一组 期望频数(fe),(4)计算检验统计量2=(f0-fe)2/fe,(5)对给定的查2表,得到临界值,(6)比较 值与临界值 作出检验判断,注意事项,(1)各组理论频数fe不得小于5,如不足5,可合并组;,(2)为使组数不致太少,总频数n50;,(3)根据具体情况确定自由度。,拟合优度检验示例分析(例) 步骤一:建立如下假设:即各公司的市场份额没有发生变化至少有一个不成立, 即各公司的市场份额发生了变化
5、步骤二:确定使用的检验统计量,步骤三:取 。由于 拟合优度检验是单边检验, 且当 等于零时表明理论分布与实际分布是一致 的。与零的任何偏差都是正的,这是因为 是由 平方和确定的, 永远不会是负值。在此题中,由 于n4,所以自由度n-1=3,在 的条件 下,临界值为决策准则:如果计算得到的样本检验统计量的值大于 7.815,则拒绝原假设,否则则不能拒绝,步骤四:计算样本检验统计量的值。分以下几步完成: (1)计算期望值(理论频数,见表)表:公司份额期望频数的计算,(2)计算 拟合优度检验统计量的值由表知, 6.25,步骤五:计算出的卡方检验统计量的值明显小于临界值, 所以不拒绝原假设,即认为新产
6、品没有改变市场 份额,=7.815,6.25,不拒绝原假设,拟合优度检验示例分析(例2)如果没有差别,则应预期啤酒饮用者的人数呈均匀分布(每种牌子啤酒的爱好者各占20%) H0 :不同牌子饮用者人数服从均匀分布H1 :不同牌子饮用者人数不服从均匀分布 显著性水平为0.05, df=5-1=4, 拒绝域为 9.488根据原假设,每种牌子啤酒爱好者的理论频数为200由于136.49.488,所以拒绝原假设结论:消费者对各款啤酒的爱好有差别,独立性检验例:在对某城市家庭的社会经济特征调查中,调查者同时想确定家庭的电话拥有量与汽车拥有量是否独立。该公司对10000户家庭组成的简单随机样本进行调查,获得
7、资料如下表。设显著性水平为0.01,列联表(观察值),列联表(理论频数的计算),检验统计量的构造,独立性检验的步骤,(1)对总体的两个变量建立假设 H0:两变量独立 H1:两变量关联,(2)将样本资料编成rk列联表,并列出实际频数Oij,(3)计算理论频数,(4)计算检验统计量,(5) 给定的查2表,得到临界值,(6)比较2值与临界值作出检验判断,例题分析 解: H0 :汽车拥有量与电话拥有量是独立的H1 :汽车拥有量与电话拥有量是不独立的,将观察频数与理论频数排在一起,并将理论频数置于括号内,由表计算得到检验统计量:显著水平为0.01自由度n=(r-1)(k-1)=(3-1)(3-1)=4查
8、表得 ,所以拒绝H0 结论:汽车拥有量与电话拥有量不是独立的,第三节 列联表中的相关测量,品质相关如果独立性检验结果为不独立,那相关程度有多大?两个变量之间相关程度的测定,主要用相关系数表示。分类数据之间的相关称为品质相关。常用的品质相关系数有:相关系数列相关系数相关系数,相关系数它仅适用于2X2列联表对于左侧的确表格,可以表示成下列算式:,列联相关系数又称列联系数它适用于一般列联表。 时,两个变量相互独立。它的最大值依赖于行数和列数。优点:对总体分布无要求缺点:不同行数和列数的列联相关系数间不能比较,相关系数又称列联系数它适用于一般列联表。时,两个变量相互独立。时,两个变量完全相关。 当列联表中有一维为2时,,数值分析 例:一种原料来自三个不同的地区,原料质量被分成三个等级。从这批原料中随机抽取500件进行检验,结果如下表所示:要求计算品质相关系数。,第四节 分布的期望值准则,关于 的两项准则准则一:如果只有两个单元,每个单元的期望频数必须大于等于5,才能用 检验准则二:如果有两个以上的单元,且20%的单元期望频数小于5,则不能用 检验,例:注意到 和 很接近,故应该拟合很好。但所以拒绝原假设。若将E、F、G合并,则有此时有所以不拒绝原假设。,