1、章末分层突破自我校对回归分析独立性检验相关系数相互独立事件回归分析分析两个变量线性相关的常用方法:(1)散点图法,该法主要是用来直观地分析两变量间是否存在相关关系(2)相关系数法,该法主要是从量上分析两个变量间相互联系的密切程度,|r|越接近于 1,相关程度越大;|r|越接近于 0,相关程度越小下表是一位母亲给儿子作的成长记录:年龄/周岁 3 4 5 6 7 8 9身高/cm 90.8 97.6 104.2 110.9 115.6 122.0 128.5年龄/周岁 10 11 12 13 14 15 16身高/cm 134.2 140.8 147.6 154.2 160.9 167.5 173
2、.0(1)年龄和身高之间具有怎样的相关关系?(2)如果年龄(3 周岁16 周岁之间)相差 5 岁,其身高有多大差异?(3)如果身高相差 20 cm,其年龄相差多少?【精彩点拨】 本例考查对两个变量进行回归分析首先求出相关系数,根据相关系数的大小判断其是否线性相关,由此展开运算【规范解答】 (1)设年龄为 x,身高为 y,则 (341516)9.5,x114 (90.897.6167.5173.0)131.985 7,y114x 1 491, y 252 958.2, xiyi18 990.6,14 17 554.1,14 i 12i 14 i 12i 14 i 1 xy x 14( )2227
3、.5, y 14( )29 075.05,14 i 12i x 14 i 12i yxiyi14 1 436.5,14 i 1 xyr14 i 1xiyi 14x y14 i 1x2i 14 x 2 14 i 1y2i 14 y 2 0.999 7.1 436.5227.59 075.05因此,年龄和身高之间具有较强的线性相关关系(2)由(1)得 b 6.314,14 i 1xiyi 14x y14 i 1x2i 14 x 2 1 436.5227.5a b 131.985 76.3149.572,y xx 与 y 的线性回归方程为 y6.314x72.因此,如果年龄相差 5 岁,那么身高相差
4、 6.314531.57(cm)(3)如果身高相差 20 cm,年龄相差 3.168206.3143(岁)再练一题1某运动员训练次数与运动成绩之间的数据关系如下:次数 x 30 33 35 37 39 44 46 50成绩 y 30 34 37 39 42 46 48 51(1)作出散点图;(2)求出回归直线方程;(3)计算相关系数并进行相关性检验;(4)试预测该运动员训练 47 次及 55 次的成绩【解】 (1)作出该运动员训练次数 x 与成绩 y 之间的散点图,如图所示,由散点图可知,它们之间具有线性相关关系(2)列表计算:次数 xi 成绩 yi x2i y2i xiyi30 30 900
5、 900 90033 34 1 089 1 156 1 12235 37 1 225 1 369 1 29537 39 1 369 1 521 1 44339 42 1 521 1 764 1 63844 46 1 936 2 116 2 02446 48 2 116 2 304 2 20850 51 2 500 2 601 2 550由上表可求得 39.25, 40.875,x y12 656,8i 1x2i13 731, iyi13 180,8i 1y2i8i 1xb 1.041 5,8i 1xiyi 8xy8i 1x2i 8x2a b 0.003 88,y x回归直线方程为 y1.041
6、 5x0.003 88.(3)计算相关系数 r0.992 7,因此运动员的成绩和训练次数两个变量有较强的相关关系(4)由上述分析可知,我们可用回归直线方程 y1.041 5x0.003 88 作为该运动员成绩的预报值将 x47 和 x55 分别代入该方程可得 y49 和 y57.故预测该运动员训练 47 次和55 次的成绩分别为 49 和 57.独立性检验独立性检验问题的基本步骤为:(1)找相关数据,作列联表(2)求统计量 2.(3)判断可能性,注意与临界值做比较,得出事件有关的可信度考察黄烟经过药物处理跟发生青花病的关系,得到如下数据:在试验的 470株黄烟中,经过药物处理的黄烟有 25 株
7、发生青花病,60 株没有发生青花病;未经过药物处理的有 185 株发生青花病,200 株没有发生青花病试推断经过药物处理跟发生青花病是否有关系【精彩点拨】 提出假设,根据 22 列联表求出 2,从而进行判断【规范解答】 由已知得到下表:药物处理 未经过药物处理 总计青花病 25 185 210无青花病 60 200 260总计 85 385 470假设经过药物处理跟发生青花病无关根据 22 列联表中的数据,可以求得 2 9.788.470 25200 18560 221026085385因为 27.879,所以我们有 99. 5%的把握认为经过药物处理跟发生青花病是有关系的再练一题2某学校高三
8、年级有学生 1 000 名,经调查研究,其中 750 名同学经常参加体育锻炼(称为 A 类同学),另外 250 名同学不经常参加体育锻炼(称为 B 类同学)现用分层抽样方法(按 A 类、B 类分两层)从该年级的学生中共抽查 100 名同学,如果以身高达 165 cm 作为达标的标准,对抽取的 100 名学生,得到以下列联表:体育锻炼与身高达标 22 列联表身高达标 身高不达标 总计积极参加体育锻炼 40不积极参加体育锻炼 15总计 100(1)完成上表(2)请问体育锻炼与身高达标是否有关系( 2值精确到 0.01)?参考公式: 2 .n ad bc 2 a b c d a c b d【解】 (
9、1)身高达标 身高不达标 总计积极参加体育锻炼 40 35 75不积极参加体育锻炼 10 15 25总计 50 50 100(2)根据列联表得 2 1.332.706,100 4015 3510 275255050所以没有充分的理由说明体育锻炼与身高达标有关系.1(2015湖北高考)已知变量 x 和 y 满足关系 y0.1x1,变量 y 与 z 正相关下列结论中正确的是( )Ax 与 y 正相关,x 与 z 负相关Bx 与 y 正相关,x 与 z 正相关Cx 与 y 负相关,x 与 z 负相关Dx 与 y 负相关, x 与 z 正相关【解析】 因为 y0.1x1 的斜率小于 0,故 x 与 y
10、 负相关因为 y 与 z 正相关,可设 zbya,b0,则 zbya0.1bxba,故 x 与 z 负相关【答案】 C2(2015福建高考)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区 5 户家庭,得到如下统计数据表:收入 x(万元) 8.2 8.6 10.0 11.3 11.9支出 y(万元) 6.2 7.5 8.0 8.5 9.8根据上表可得回归直线方程 ybxa,其中 b0.76,a b .据此估计,该社区一y x户年收入为 15 万元家庭的年支出为( )A11.4 万元 B11.8 万元C12.0 万元 D12.2 万元【解析】 由题意知, 10,x8.2 8.6 10
11、.0 11.3 11.95 8,y6.2 7.5 8.0 8.5 9.85a80.76100.4,当 x15 时,y0.76150.411.8(万元)【答案】 B3(2014湖北高考)根据如下样本数据x 3 4 5 6 7 8y 4.0 2.5 0.5 0.5 2.0 3.0得到的回归方程为 bxa,则( )y Aa0,b0 Ba0,b0Ca0,b0 Da0,b0【解析】 作出散点图如下:观察图象可知,回归直线 bxa 的斜率 b0,当 x0 时, a0.故 a0,b0.y y 【答案】 A4(2016全国卷)如图 31 是我国 2008 年至 2014 年生活垃圾无害化处理量(单位:亿吨)的
12、折线图注:年份代码 17 分别对应年份 20082014.图 31(1)由折线图看出,可用线性回归模型拟合 y 与 t 的关系,请用相关系数加以说明;(2)建立 y 关于 t 的回归方程(系数精确到 0.01),预测 2016 年我国生活垃圾无害化处理量附注:参考数据: yi9.32, tiyi40.17, 0.55, 2.646.7 i 1 7 i 1 7 i 1 yi y 2 7参考公式:相关系数 r ,回归方程 abt 中斜 n i 1 ti t yi y n i 1 ti t 2 n i 1 yi y 2 y 率和截距的最小二乘估计公式分别为 b ,a b . n i 1 ti t y
13、i y n i 1 ti t 2 y t【解】 (1)由折线图中的数据和附注中的参考数据得4, (ti )228, 0.55,t 7 i 1 t 7 i 1 yi y 2(ti )(yi ) tiyi yi40.1749.322.89,7 i 1 t y 7 i 1 t 7 i 1r 0.99.2.890.5522.646因为 y 与 t 的相关系数近似为 0.99,说明 y 与 t 的线性相关程度相当大,从而可以用线性回归模型拟合 y 与 t 的关系(2)由 1.331 及(1)得y9.327b 0.103. 7 i 1 ti t yi y 7 i 1 ti t 2 2.8928a b 1.3310.10340.92.y t所以 y 关于 t 的回归方程为 0.920.10t.y 将 2016 年对应的 t9 代入回归方程得 0.920.1091.82. y 所以预测 2016 年我国生活垃圾无害化处理量约为 1.82 亿吨