1、第一章 统计案例复习教案一、本章知识脉络:二、本章要点追踪:1.样本点的中心( , )x y 其中 xi, yi .x 1n y 2.线性回归模型的完美表达式y bx a eE( e) 0, D( e) 2)3.类比样本方差估计总体方差的思想,可以用 i Q( , ) ( n2) 2 1n 2 e2 1n 2 a b 作为 2的估计量 其中 a y b x b 4.我们可以用相关指数 R2来刻画回归的效果,其计算公式是:R21 统计案例回归分析样本点的中心随机误差残差分析建立回归模型的基本步骤回归分析列联表K2 n( ad bc) 2( a b) ( c d) ( a c) ( b d)判断结
2、论成立可能性的步骤R2取值越大,意味着残差平方和越小,也就是说模型的拟合效果越好.5.建立回归模型的基本步骤:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等) ;(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程 y bx x) ;(4)按一定规则估计回归方程中的参数(如最小二乘法) ;(5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性等等) ,若存在异常,则检查数据是否有误,或模型是否合适等。6.作 K2来确定结论“ X 与 Y
3、 有关系”的可信程度.三、几个典型例题:例 1 某地区 10 名健康儿童头发和全血中的硒含量(1000 ppm)如下,血硒 74 66 88 69 91 73 66 96 58 73发硒 13 10 13 11 16 9 7 14 5 10(1)画出散点图;(2)求回归方程;(3)如果某名健康儿童的血硒含量为 94(1000 ppm)预测他的发硒含量.例 2 某地大气中氰化物测定结果如下:污染源距离 50 100 150 200 250 300 400 500氰化物浓度 0.687 0.398 0.200 0.121 0.09 0.05 0.02 0.01(1)试建立氰化物浓度与距离之间的回归
4、方程.(2)求相关指数.(3)作出残差图,并求残差平方和例 3 某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,随机制取了 189 名员工进行调查,所得数据如下表所示:积极支持企业改革 不太造成企业改革 合 计工作积极 54 40 94工作一般 32 63 95合 计 86 103 189对于人力资源部的研究项目,根据上述数据能得出什么结论?例 4 有人统计了同一个省的 6 个城市某一年的人均国内生产总值(即人均 GDP)和这一年各城市患白血病的儿童数量,如下表:人均 GDP (万元)x10 8 6 4 3 1患白血病的儿童数 y351 312 207 175 132
5、180(1)画出散点图;(2)求 对 的回归直线方程;x(3)如果这个省的某一城市同时期年人均 GDP 为 12 万元,估计这个城市一年患白血病的儿童数目;例 5 寒假中,某同学为组织一次爱心捐款,于 2008 年 2 月 1 日在网上给网友发了张帖子,并号召网友转发,下表是发帖后一段时间的收到帖子的人数统计:天数 x1 2 3 4 5 6 7人数 y7 11 21 24 66 115 325(1)作出散点图,并猜测 与 之间的关系;xy(2)建立 与 的关系,预报回归模型并计算残差;x(3)如果此人打算在 2008 年 2 月 12 日(即帖子传播时间共 10 天)进行募捐活动,根据上述回归
6、模型,估计可去多少人.例 6 有人发现了一个有趣的现象,中国人的邮箱名称里含有数字的比较多,而外国人邮箱名称里含有数字的比较少.为了研究国籍和邮箱名称里是否含有数字的关系,他收集了 124 个邮箱名称,其中中国人的 70 个,外国人的 54 个,中国人的邮箱中有 43 个含数字,外国人的邮箱中有 27 个含数字.(1)根据以上数据建立一个 22 的列联表;(2)他发现在这组数据中,外国人邮箱名称里含数字的也不少,他不能断定国籍和邮箱名称里含有数字是否有关,你能帮他判断一下吗?例 7 针对时下的“韩剧热”,某校团委对“学生性别和是否喜欢韩剧是否有关”作了一次调查,其中女生人数是男生人数的 ,男生喜欢韩剧的人数占男生人数的 ,女生21 61喜欢韩剧人数占女生人数的 . 32(1)若有 的把握认为是否喜欢韩剧和性别有关,则男生至少有多少人;095(2)若没有充分的证据显示是否喜欢韩剧和性别有关,则男生至多有多少人.