1、1第一章 统计案例章末复习学习目标 1.会求线性回归方程,并用回归直线进行预报.2.理解独立性检验的基本思想及实施步骤一、线性回归分析1线性回归方程在线性回归方程 y a bx 中, b , a b .其中 n i 1 xi xyi y n i 1 xi x2 n i 1xiyi nxy n i 1x2i nx2 y x xi, yi.x1n n i 1 y 1n n i 12相关系数(1)相关系数 r 的计算公式r . n i 1xiyi nxy n i 1x2i nx2 n i 1y2i ny2(2)相关系数 r 的取值范围是1,1,| r|值越大,变量之间的线性相关程度越高(3)当 r0
2、 时, b0,称两个变量正相关;当 r2.706 时,有 90%的把握判定变量 A, B 有关联当 23.841 时,有 95%的把握判定变量 A, B 有关联当 26.635 时,有 99%的把握判定变量 A, B 有关联.类型一 回归分析3例 1 如图所示的是某企业 2011 年至 2017 年污水净化量(单位:吨)的折线图(1)由折线图看出,可用线性回归模型拟合 y 和 t 的关系,请用相关系数加以说明;(2)建立 y 关于 t 的回归方程,预测 2019 年该企业污水净化量附注:参考数据: 54, (ti )(yi )21, 3.74, (yi )218.y7i 1 t y 147i
3、1 y参考公式:相关系数 r ,回归方程 y a bt 中斜率和截距的最ni 1ti tyi yni 1ti t2ni 1yi y2小二乘法估计公式分别为 b , a b .ni 1ti tyi yni 1ti t2 y t考点 线性回归分析题点 线性回归方程的应用解 (1)由题意, 4, (ti )(yi )21,t7i 1 t y r 0.936.7i 1ti tyi y7i 1ti t27i 1yi y2 2128180.9360.75,故 y 与 t 之间存在较强的正相关关系(2)由题意, 54, b ,y7i 1ti tyi y7i 1ti t2 2128 344a b 54 451
4、,y t34 y 关于 t 的回归方程为 y t51.34当 t9 时, y 95157.75,预测 2019 年该企业污水净化量约为 57.75 吨34反思与感悟 解决回归分析问题的一般步骤(1)画散点图根据已知数据画出散点图(2)判断变量的相关性并求回归方程通过观察散点图,直观感知两个变量是否具有相关关系;在此基础上,利用最小二乘法求回归系数,然后写出回归方程(3)实际应用依据求得的回归方程解决实际问题跟踪训练 1 某兴趣小组欲研究昼夜温差大小与患感冒人数之间的关系,他们分别到气象局与某医院抄录了 1 至 6 月份每月 10 号的昼夜温差 x()与因患感冒而就诊的人数 y,得到如下资料:日
5、期 昼夜温差 x() 就诊人数 y(个)1 月 10 日 10 222 月 10 日 11 253 月 10 日 13 294 月 10 日 12 265 月 10 日 8 166 月 10 日 6 12该兴趣小组确定的研究方案是:先从这六组数据中选取 2 组,用剩下的 4 组数据求线性回归方程,再用被选取的 2 组数据进行检验(1)求选取的 2 组数据恰好是相邻两个月的概率;(2)若选取的是 1 月与 6 月的两组数据,请根据 2 至 5 月份的数据,求出 y 关于 x 的线性回归方程 y bx a;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过 2 人,则认为得到的线
6、性回归方程是理想的,试问该小组所得线性回归方程是否理想?(参考公式: b , a b )ni 1xiyi nxyni 1x2i nx2ni 1xi xyi yni 1xi x2 y x考点 线性回归分析5题点 线性回归方程的应用解 (1)设抽到相邻两个月的数据为事件 A.试验发生包含的事件是从 6 组数据中选取 2 组数据,共有 15 种情况,每种情况都是等可能出现的,其中抽到相邻两个月的数据的情况有 5 种, P(A) .515 13(2)由数据求得 11, 24,由公式求得 b ,x y187 a b ,y x307 y 关于 x 的线性回归方程为 y x .187 307(3)当 x10
7、 时, y , 6.635,308 128212182010故在犯错误的概率不超过 0.01 的前提下能够认为“其亲属的饮食习惯与年龄有关” 1下列相关系数 r 对应的变量间的线性相关程度最强的是( )A r0.90 B r0.5C r0.93 D r0考点 线性相关系数题点 线性相关系数的应用答案 C2某工程施工在很大程度上受当地年降水量的影响,施工期间的年降水量 X(单位:mm)对工期延误天数 Y 的影响及相应的概率 P 如下表所示:年降水量 X X6.635,故有 99%的把握确认这两个变量有关系,x y正确故选 B.二、填空题8将两枚质地均匀的骰子各掷一次,设事件 A两个点数互不相同,
8、 B出现一个 5 点,则 P(B|A)_.考点 条件概率的定义及计算公式题点 利用缩小基本事件空间求条件概率答案 13解析 出现点数互不相同的共有 n(A)6530(种),出现一个 5 点,共有 n(AB)5210(种),所以 P(B|A) .nABnA 139为了规定工时定额,需要确定加工零件所花费的时间,为此进行 5 次试验,得到 5 组数据( x1, y1),( x2, y2),( x3, y3),( x4, y4),( x5, y5)根据收集到的数据可知x1 x2 x3 x4 x5150,由最小二乘法求得线性回归方程为 y0.67 x54.9,则y1 y2 y3 y4 y5的值为_考点
9、 线性回归方程题点 样本点中心的应用答案 375解析 由题意,得 (x1 x2 x3 x4 x5)30,且回归直线 y0.67 x54.9 恒过点( ,x15 x),则 0.673054.975,所以 y1 y2 y3 y4 y55 375.y y y10某工厂为了调查工人文化程度与月收入之间的关系,随机调查了部分工人,得到如下表所示的 22 列联表(单位:人):月收入 2000 元以下 月收入 2000 元及以上 总计高中文化以上 10 45 55高中文化及以下 20 30 50总计 30 75 10514由 22 列联表计算可知,我们有_以上的把握认为“文化程度与月收入有关系” 附: 2n
10、ad bc2a bc da cb dP( 2 k) 0.15 0.10 0.05 0.025 0.01 0.001k 2.072 2.706 3.841 5.024 6.635 10.828考点 独立性检验及其基本思想题点 独立性检验的方法答案 97.5%解析 由表中的数据可得 2 6.109,1051030 4520255503075由于 6.1095.024,所以我们有 97.5%以上的把握认为“文化程度与月收入有关系” 11某炼钢厂废品率 x(%)与成本 y(元/吨)的线性回归方程为 y105.49242.569 x.当成本控制在 176.5 元/吨时,可以预计生产的 1000 吨钢中,
11、约有_吨钢是废品(结果保留两位小数)考点 线性回归分析题点 线性回归方程的应用答案 16.68解析 因为 176.5105.49242.569 x,解得 x1.668,即当成本控制在 176.5 元/吨时,废品率约为 1.668%,所以生产的 1000 吨钢中,约有 10001.668%16.68(吨)是废品三、解答题12某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了 12 月 1 日至 12 月 5 日的每天昼夜温差与实验室每天每 100 颗种子中的发芽数,得到如下资料:日期 12 月 1 日 12 月 2 日 12 月 3 日 12 月 4 日
12、 12 月 5 日温差 x() 10 11 13 12 8发芽数 y(颗) 23 25 30 26 16该农科所确定的研究方案是:先从这五组数据中选取 2 组,用剩下的 3 组数据求线性回归方程,再对被选取的 2 组数据进行检验(1)求选取的 2 组数据恰好是不相邻 2 天数据的概率;(2)若选取的是 12 月 1 日与 12 月 5 日的两组数据,请根据 12 月 2 日至 12 月 4 日的数据,求出 y 关于 x 的线性回归方程 y bx a;15(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过 2 颗,则认为得到的线性回归方程是可靠的,试问(2)中所得的线性回归方程
13、是否可靠?考点 线性回归分析题点 线性回归方程的应用解 (1)设事件 A 表示“选取的 2 组数据恰好是不相邻 2 天的数据” ,则 表示“选取的数据A恰好是相邻 2 天的数据” 基本事件总数为 10,事件 包含的基本事件数为 4.A P( ) ,A410 25 P(A)1 P( ) .A35(2) 12, 27, iyi977, 434,x y3i 1x3i 1x2i b 2.5,3i 1xiyi 3xy3i 1x2i 3x2 977 31227434 3122a b 272.5123,y x y2.5 x3.(3)由(2)知:当 x10 时, y22,误差不超过 2 颗;当 x8 时, y
14、17,误差不超过 2 颗故所求得的线性回归方程是可靠的四、探究与拓展13对某台机器购置后的运营年限 x(x1,2,3,)与当年利润 y 的统计分析知具备线性相关关系,线性回归方程为 y10.471.3 x,估计该台机器使用_年最合算考点 线性回归分析题点 线性回归方程的应用答案 8解析 只要预计利润不为负数,使用该机器就算合算,即 y0,所以 10.471.3 x0,解得 x8.05,所以该台机器使用 8 年最合算14某校高一年级理科有 8 个班,在一次数学考试中成绩情况分析如下:班级 1 2 3 4 5 6 7 8大于 145 分人数 6 6 7 3 5 3 3 7不大于 145 分人数 3
15、9 39 38 42 40 42 42 3816附: xiyi171, x 204.8 i 1 8 i 12i(1)求 145 分以上成绩人数 y 对班级序号 x 的线性回归方程;(精确到 0.0001)(2)能否在犯错误的概率不超过 0.01 的前提下认为 7 班与 8 班的成绩是否优秀(大于 145 分)与班级有关系考点 独立性检验思想的应用题点 独立性检验与线性回归方程、均值的综合应用解 (1) 4.5, 5, xiyi171, x 204,x y 8 i 1 8 i 12ib 0.2143, 8 i 1xiyi 8xy 8 i 1x2i 8x2 171 84.55204 84.52 314a b 5(0.2143)4.55.9644,y x线性回归方程为 y0.2143 x5.9644.(2) 2 1.8,90338 4272454580101.86.635,不能在犯错误的概率不超过 0.01 的前提下认为 7 班与 8 班的成绩是否优秀(大于 145 分)与班级有关系