1、1 加深理解回归分析与独立性检验一、回归分析1回归直线方程 x ,其中:y b a , .b n i 1 (xi xto(x)(yi xto(y) n i 1 (xi xto(x) 2 n i 1xiyi nx y n i 1x2i nx2 a y b x(注: 主要方便计算,其中(x i,y i)为样本数据,( , )为样本点的中心)b n i 1xiyi nx y n i 1x2i nx2 x y公式作用:通过刻画线性相关的两变量之间的关系,估计和分析数据的情况,解释一些实际问题,以及数据的变化趋势公式联系:是进行残差分析的基础2样本相关系数的具体计算公式:r n i 1 (xi xto(
2、x)(yi xto(y) n i 1 (xi xto(x) 2 n i 1 (yi xto(y) 2 n i 1xiyi nx y(o( ,sup6(n),sdo4(i 1)xoal(2,i) nxto(x)2)(o( ,sup6(n),sdo4(i 1)yoal(2,i) nxto(y)2)公式作用:反映两个变量之间线性相关关系的强弱当 r 的绝对值接近 1 时,表明两个变量的线性相关性越强;当 r 的绝对值接近 0 时,表明两个变量之间几乎不存在线性相关关系规定当 r0.75 时,认为两个变量有很强的线性相关关系公式联系:(1)由于分子与回归方程中的斜率 b 的分子一样 (这也给出了公式的
3、内在联系以及公式的记法),因此,当 r0 时,两个变量正相关;当 r2.706,就有 90%的把握认为两分类变量 X 和 Y 有关系;如果 k3.841,就有 95%的把握认为两分类变量 X 和 Y 有关系;如果 k6.635,就有 99%的把握认为两分类变量 X 和Y 有关系;如果 k10.828,就有 99.9%的把握认为两分类变量 X 和 Y 有关;如果k2.706,就认为没有充分的证据说明变量 X 和 Y 有关系像这种利用随机变量 K2 来确定在多大程度上可以认为 “两个分类变量有关系”的方法称为两个分类变量的独立性检验2 回归分析题型归纳相关关系是自然中普遍存在的关系,高考中对具有线
4、性相关关系的考查已成为趋势,有的考查概念性质,更多是考查线性回归直线方程的实际应用,下面精选几例题型供赏析一、考查相关系数例 1 变量 X 与 Y 相对应的一组数据为(10,1),(11.3,2) ,(11.8,3),(12.5,4),(13,5) ;变量 U与 V 相对应的一组数据为(10,5),(11.3,4),(11.8,3) ,(12.5,2) ,(13,1)r 1 表示变量 Y 与 X 之间的线性相关系数,r 2 表示变量 V 与 U 之间的线性相关系数,则( )Ar 20,r 20 ,B0,r 20,且 a1)解决方案:对 yca x 两边取常用对数,则有 lg ylg cxlg
5、a,令 ulg y,则原式可变为uxlg alg c,其中 lg a 和 lg c 为常数,该式表示 u,x 的线性函数与幂函数不同的是 x保持不变,用 y 的对数 lg y 代替了 y.(3)反比例函数 y (k0)kx解决方案:令 u ,则 yku,该式表示 y,u 的线性函数1x(4)二次函数 yax 2c解决方案:令 ux 2,则原函数可变为 yauc ,该式表示 y,u 的线性函数(5)对数型函数 yclog ax解决方案:令 xa u,则原函数可变为 ycu ,该式表示 y,u 的线性函数4 判断两个变量线性相关的方法一、由散点图判断两个变量线性相关例 1 “阿曼德匹萨”是一个制作
6、和外卖意大利匹萨的餐饮连锁店,其主要客户群是在校大学生,为研究各店铺某季度的销售额与店铺附近地区大学生人数的关系,随机抽取十个分店的样本,得到数据如下:店铺编号 区内大学生数 x(万人) 某季度销售额 y(万元)1 0.2 5.82 0.6 10.53 0.8 8.84 0.8 11.85 1.2 11.76 1.6 13.77 2 15.78 2 16.99 2.2 14.910 2.6 20.2(1)画出散点图,并判断各店铺该季度的销售额 y 与店铺附近地区大学生人数 x 是否具有线性相关关系?(2)若具有线性相关关系,求回归直线方程,然后再进一步根据回归直线方程预测一个区内大学生有 1
7、万人的店铺的季度销售额分析 先根据表中的数据画出散点图,然后判断是否具有线性相关关系,若具有线性相关关系,再根据所给的数据求出线性回归方程,最后进行预测解 (1)散点图如图所示由散点图可以看出:这些点分布在一条直线的附近所以各店铺该季度的销售额 y 与店铺附近地区大学生人数 x 具有线性相关关系(2)由表中数据可知 1.4, 13, 10 25.68, iyi10 28.4.x y10i 1x2i x10i 1x xy所以 5, 1351.46.b 28.45.68 a 因此回归直线方程是 5x 6.y 当 x1 时, 51611,即区内大学生有 1 万人的店铺的季度销售额约为 11 万元y
8、评注 本题根据线性回归方程进行预测,这要求同学们具备一定的数据分析、推测能力通过学习,体会数据收集、分析在现实生活中的作用二、由样本相关系数判断两个变量线性相关例 2 2010 年 4 月 14 日青海省玉树县发生 7.1 级大地震,为了抗震救灾,某工厂需大批生产帐篷支援灾区,工厂为了规定工时定额,需要确定加工帐篷所花费的时间,为此进行了10 次试验,测得的数据如下:帐篷数x(顶 ) 10 20 30 40 50 60 70 80 90 100加工时间Y(小时) 62 68 75 81 89 95 102 108 115 122试问:(1)对 x 与 Y 进行相关性检验;(2)如果 x 与 Y
9、 具有线性相关关系,求出回归直线方程分析 可通过计算相关系数判断 Y 与 x 是否具有相关关系,如果 Y 与 x 具有相关关系可将有关数据代入公式求得回归直线方程解 (1)作统计假设:x 与 Y 不具有线性相关关系由小概率 0.05 与 n28 在附表中查得 r0.050.632.根据已知数据,可求得 55, 91.7, 38 500,x y10i 1x2i87 777, iyi55 950.10i 1y2i10i 1x因此,r55 950 105591.7(38 500 10552)(87 777 1091.72)0.999 8.|r|0.632 ,即 |r|r0.05 从而有 95%的把握
10、认为 x 与 Y 之间具有线性相关关系,因而求回归直线方程是有意义的(2)设所求的回归直线方程为 x ,则有 0.668, y b a b 55 950 105591.738 500 10552 a 54.96.y b x因此,所求的回归直线方程是 0.668x54.96.y 评注 求解两个变量的相关系数及它们的回归直线方程的计算量大,需要细心、谨慎地计算5 独立性检验思想的应用在日常生活中,经常会面临一些需要推断的问题在对这些问题作出推断时,我们不能仅凭主观臆断作出结论,需要通过试验来收集数据,并依据独立性检验思想做出合理的推断所谓独立性检验,就是根据采集样本的数据,先利用等高条形图粗略判断
11、两个分类变量是否有关系,再利用公式计算 K2 的值,比较与临界值的大小关系来判定事件 X 与 Y 是否有关的问题其基本步骤如下:(1)考察需抽样调查的背景问题,确定所涉及的变量是否为二值分类变量;(2)根据样本数据制作列联表;(3)通过图形直观判断两个分类变量是否相关;(4)计算统计量 K2,并查表分析当 K2 很大时,就认为两个变量有关系;否则就认为没有充分的证据显示两个变量有关系下面举例说明独立性检验思想在解决实际问题中的应用例 为了调查患慢性气管炎是否与吸烟有关,调查了 339 名 50 岁以上的人,统计结果为:患慢性气管炎共有 56 人,患慢性气管炎且吸烟的有 43 人,未患慢性气管炎
12、但吸烟的有162 人根据调查统计结果,分析患慢性气管炎与吸烟在多大程度上有关系?解 根据所给样本数据得到如下 22 列联表:患慢性气管炎 未患慢性气管炎 总计吸烟 43 162 205不吸烟 13 121 134总计 56 283 339由列联表可以粗略估计出:在吸烟者中,有 20.98%的患慢性气管炎;在不吸烟者中,有9.70%的患慢性气管炎两个比例的值相差较大,所以结论“患慢性气管炎与吸烟有关”成立的可能性较大作出相应的等高条形图,如图所示比较图中两个深色条的高可以发现在吸烟样本中患慢性气管炎的频率要高一些,可以在某种程度上认为“患慢性气管炎与吸烟有关” 根据列联表中的数据,得到K2 7.4696.635.339(43121 13162)256283205134而 P(K26.635)0.010.所以有 99%的把握认为“患慢性气管炎与吸烟有关 ”点评 对列联表的比例及等高条形图进行分析,可粗略地判断两个分类变量是否有关系通过计算检验随机变量 K2,可以比较精确地给出这种判断的可靠程度先收集数据,然后通过一些统计方法对数据进行科学的分析,这是我们用统计方法解决实际问题的基本