1、- 1 -12 回归分析学习目标 1.会建立线性回归模型分析两个变量间的相关关系.2.能通过相关系数判断两个变量间的线性相关程度.3.了解回归分析的基本思想和初步应用知识链接1什么叫回归分析?答 回归分析是对具有相关关系的两个变量进行统计分析的一种方法2回归分析中,利用线性回归方程求出的函数值一定是真实值吗?答 不一定是真实值,利用线性回归方程求的值,在很多时候是个预报值,例如,人的体重与身高存在一定的线性关系,但体重除了受身高的影响外,还受其他因素的影响,如饮食,是否喜欢运动等预习导引1线性回归方程(1)对于 n 对观测数据( xi, yi)(i1,2,3, n),直线方程 x 称为这 n
2、对数据的线y a b 性回归方程其中 称为回归截距, a y b x b ni 1(xi xto(x)(yi xto(y)ni 1(xi xto(x)2称为回归系数, 称为回归值ni 1xiyi nx yni 1x2i n(xto(x)2 y (2)将 y a bx 称为线性回归模型,其中 a bx 是确定性函数, 称为随机误差2相关系数 r 的性质(1)|r|1;(2)|r|越接近于 1, x, y 的线性相关程度越强;(3)|r|越接近于 0, x, y 的线性相关程度越弱3显著性检验(1)提出统计假设 H0:变量 x, y 不具有线性相关关系;(2)如果以 95%的把握作出判断,可以根据
3、 10.950.05 与 n2 在附录 2 中查出一个 r 的- 2 -临界值 r0.05(其中 10.950.05 称为检验水平);(3)计算样本相关系数 r ni 1(xi xto(x)(yi xto(y)ni 1(xi xto(x)2ni 1(yi xto(y)2ni 1xiyi nxy(isu(i 1,n,x)oal(2,i) n(xto(x)2)(isu(i 1,n,y)oal(2,i) n(xto(y)2);(4)作出统计推断:若| r| r0.05,则否定 H0,表明有 95%的把握认为 x 与 y 之间具有线性相关关系;若| r| r0.05,则没有理由拒绝原来的假设 H0,即
4、就目前数据而言,没有充分理由认为 x 与 y 之间有线性相关关系.要点一 线性相关的判断例 1 某校高三(1)班的学生每周用于数学学习的时间 x(单位: h)与数学平均成绩 y(单位:分)之间有表格所示的数据.x 24 15 23 19 16 11 20 16 17 13y 92 79 97 89 64 47 83 68 71 59(1)画出散点图;(2)作相关性检验;(3)若某同学每周用于数学学习的时间为 18h,试预测其数学成绩解 (1)根据表中的数据,画散点图,如图从散点图看,数学成绩与学习时间线性相关(2)由已知数据求得 17.4, 74.9, 3182,x y10i 1x2i- 3
5、-58375, iyi13578,10i 1y2i10i 1x所以相关系数 r 10i 1xiyi 10x y(isu(i 1,10,x)oal(2,i) 10(xto(x)2)(isu(i 1,10,y)oal(2,i) 10(xto(y)2)0.920.而 n10 时, r0.050.632,所以| r| r0.05,所以有 95%的把握认为数学成绩与学习时间之间具有线性相关关系(3)用科学计算器计算,可得线性回归方程为 3.53 x13.44.y 当 x18 时, 3.531813.4477,故预计该同学数学成绩可得 77 分左右y 规律方法 判断变量的相关性通常有两种方式:一是散点图;
6、二是相关系数 r.前者只能粗略的说明变量间具有相关性,而后者从定量的角度分析变量相关性的强弱跟踪演练 1 暑期社会实践中,小闲所在的小组调查了某地家庭人口数 x 与每天对生活必需品的消费 y 的情况,得到的数据如下表:x/人 2 4 5 6 8y/元 20 30 50 50 70(1)利用相关系数 r 判断 y 与 x 是否线性相关;(2)根据上表提供的数据,求出 y 关于 x 的线性回归方程解 (1)由表中数据,利用科学计算器计算得:r 5i 1xiyi 5xy(isu(i 1,5,x)oal(2,i) 5(xto(x)2)(isu(i 1,5,y)oal(2,i) 5(xto(y)2)0.
7、975.因为 r r0.050.878,所以 y 与 x 之间具有线性相关关系(2)根据以上数据可得, 8.5,b 5i 1xiyi 5x y5i 1x2i 5(xto(x)2 448.551.5,a y b x所求的线性回归方程为 1.58.5 x.y - 4 -要点二 求线性回归方程例 2 某班 5 名学生的数学和物理成绩如下表:学生编号 1 2 3 4 5学科编号 A B C D E数学成绩( x) 88 76 73 66 63物理成绩( y) 78 65 71 64 61(1)画出散点图;(2)求物理成绩 y 对数学成绩 x 的线性回归方程;(3)一名学生的数学成绩是 96,试预测他的
8、物理成绩解 (1)散点图如图(2) (8876736663)73.2,x15 (7865716461)67.8.y15iyi887876657371666463615i 1x25054.88 276 273 266 263 227174.5i 1x2i所以 0.625.b 5i 1xiyi 5x y5i 1x2i 5(xto(x)2 25054 573.267.827174 573.22 67.80.62573.222.05.a y b x所以 y 对 x 的线性回归方程是 0.625 x22.05.y (3)x96,则 0.6259622.0582,即可以预测他的物理成绩是 82.y 规律方
9、法 (1)散点图是定义在具有相关关系的两个变量基础上的,对于性质不明确的两组数据,可先作散点图,在图上看它们有无关系,关系的密切程度,然后再进行相关回归分析- 5 -(2)求线性回归方程,首先应注意到,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义跟踪演练 2 某研究机构对高三学生的记忆力 x 和判断力 y 进行统计分析,得下表数据:x 6 8 10 12y 2 3 5 6请画出上表数据的散点图(要求:点要描粗);请根据上表提供的数据,用最小二乘法求出 y 关于 x 的线性回归方程 x ;y b a 试根据求出的线性回归方程,预测记忆力为 9 的同学
10、的判断力解 如图: xiyi6283105126158,n i 1 9,x6 8 10 124 4,y2 3 5 64x 6 28 210 212 2344,n i 12i 0.7,b 158 494344 492 1420 40.792.3,a y b x故线性回归方程为 0.7 x2.3.y 由中线性回归方程当 x9 时, 0.792.34,故预测记忆力为 9 的同学的判断力y 为 4.要点三 非线性回归分析例 3 某种书每册的成本费 y(元)与印刷册数 x(千册)有关,经统计得到数据如下:x 1 2 3 5 10y 10.15 5.52 4.08 2.85 2.11x 20 30 50
11、100 200- 6 -y 1.62 1.41 1.30 1.21 1.15检验每册书的成本费 y 与印刷册数的倒数 之间是否具有线性相关关系;如有,求出 y 对 x1x的回归方程解 令 u ,原题中所给数据变成如下表示的数据:1xu 1 0.5 0.33 0.2 0.1y 10.15 5.52 4.08 2.85 2.11u 0.05 0.03 0.02 0.01 0.005y 1.62 1.41 1.30 1.21 1.150.2245, 3.14, 10( )20.9088,u y10i 1u2i uiyi10 8.15525, 10( )273.207,10i 1u uy10i 1y2
12、i y r 0.9998,8.155250.908873.207查表得 r0.050.632,因为 r r0.05,从而认为 u 与 y 之间具有线性相关关系回归系数 8.974,b 8.155250.90883.148.9740.22451.125,a 所以 8.974 u1.125,y 所以 y 对 x 的回归方程为 1.125.y 8.974x规律方法 对非线性回归问题,若给出经验公式,采用变量代换把问题转化为线性回归问题若没有经验公式,需结合散点图挑选拟合得最好的函数跟踪演练 3 在试验中得到变量 y 与 x 的数据如下表:试求 y 与 x 之间的回归方程,并预测 x40 时, y 的
13、值.x 19 23 27 31 35y 4 11 24 109 325解 作散点图如图所示,- 7 -从散点图可以看出,两个变量 x, y 不呈线性相关关系,根据学过的函数知识,样本点分布的曲线符合指数型函数 y c1ec2x,通过对数变化把指数关系变为线性关系,令 zln y,则z bx a(aln c1, b c2)列表:x 19 23 27 31 35z 1.386 2.398 3.178 4.691 5.784作散点图如图所示,从散点图可以看出,两个变量 x, z 呈很强的线性相关关系由表中的数据得到线性回归方程为 0.277 x3.998.z 所以 y 关于 x 的指数回归方程为:
14、e 0.277x3.998 .y 所以,当 x40 时, ye0.277403.9981190.347.1在下列各量之间,存在相关关系的是_正方体的体积与棱长之间的关系;一块农田的水稻产量与施肥量之间的关系;人的身高与年龄之间的关系;家庭的支出与收入之间的关系;某户家庭用电量与电价之间的关系答案 2如图是 x 和 y 的一组样本数据的散点图,去掉一组数据_后,剩下的 4 组数据的相关指数最大- 8 -答案 D(3,10)解析 经计算,去掉 D(3,10)这一组数据后,其他 4 组数据对应的点都集中在某一条直线附近,即两变量的线性相关性最强,此时相关指数最大3对具有线性相关关系的变量 x 和 y
15、,由测得的一组数据已求得回归直线的斜率为 6.5,且恒过(2,3)点,则这条回归直线的方程为_答案 106.5 xy 解析 由题意知 2, 3, 6.5,所以 36.5210,即回归直线的方x y b a y b x程为 106.5 x.y 4某电脑公司有 6 名产品推销员,其工作年限与年推销金额数据如下表:推销员编号 1 2 3 4 5工作年限 x/年 3 5 6 7 9推销金额 y/万元 2 3 3 4 5(1)求年推销金额 y 关于工作年限 x 的线性回归方程;(2)若第 6 名推销员的工作年限为 11 年,试估计他的年推销金额解 (1)设所求的线性回归方程为 x ,y b a 则 0.
16、5, 0.4.b 5i 1xiyi 5xy5i 1x2i 5(xto(x)2 1020 a y b x所以年推销金额 y 关于工作年限 x 的线性回归方程为0.5 x0.4.y (2)当 x11 时, 0.5 x0.40.5110.45.9(万元)y 所以可以估计第 6 名推销员的年推销金额为 5.9 万元1相关系数 rr 的大小与两个变量之间线性相关程度的强弱关系:- 9 -(1)当 r0 时,表明两个变量正相关;当 r0 时,表明两个变量负相关当 r1 时,两个变量完全正相关;当 r1 时,两个变量完全负相关(2)|r|1,并且| r|越接近 1,表明两个变量的线性相关程度越强,它们的散点
17、图越接近于一条直线,这时用线性回归模型拟合这组数据的效果就越好;| r|越接近 0,表明两个变量的线性相关程度越弱,通常当| r| r0.05时,认为两个变量有很强的线性相关程度此时建立的回归模型是有意义的2回归分析用回归分析可以预测具有相关关系的两个随机变量的取值但要注意:回归方程只适用于我们所研究的样本的总体我们建立的回归方程一般都有时间性样本取值的范围影响了回归方程的适用范围回归方程得到预报值不是变量的精确值,是变量可能取值的平均值一、基础达标1已知方程 0.85 x82.71 是根据女大学生的身高预报她的体重的回归方程,其中 x 的单y 位是 cm, 的单位是 kg,那么针对某个体(1
18、60,53)的随机误差是_y 答案 0.292对于相关系数 r,以下 4 个叙述错误的是_| r|(0,),| r|越大,线性相关程度越大,反之,线性相关程度越小; r(,), r 越大,线性相关程度越大,反之,线性相关程度越小;| r|1,| r|越接近 1,线性相关程度越大,| r|越接近 0,线性相关程度越小答案 3已知变量 x 与 y 正相关,且由观测数据算得样本平均数 3, 3.5,则由该观测数据x y算得的线性回归方程可能是_ 0.4 x2.3;y 2 x2.4;y 2 x9.5;y 0.3 x4.4.y 答案 解析 因为变量 x 和 y 正相关,则回归直线的斜率为正,故可以排除选
19、项和.因为样本- 10 -点的中心在回归直线上,把点(3,3.5)分别代入选项和中的直线方程进行检验,可以排除,故选.4某小卖部为了了解冰糕销售量 y(箱)与气温 x()之间的关系,随机统计了某 4 天卖出的冰糕的箱数与当天气温,并制作了对照表(如下表所示),且由表中数据算得线性回归方程 x 中的 2,则预测当气温为 25时,冰糕销量为_箱.y b a b 气温/ 18 13 10 1冰糕/箱 64 38 34 24答案 70解析 由线性回归方程必过点( , ),且 2,得 20.x y y a 当 x25 时, 70.y 5已知对一组观测值( xi, yi)(i1,2, n)作出散点图后,确
20、定具有线性相关关系,若对于 x,求得 0.51, 61.75, 38.14,则线性回归方程为_y a b b x y答案 0.51 x6.65y 解析 38.140.5161.75a y b x6.64756.65. 0.51 x6.65.y 6以下关于线性回归的判断,正确的是_散点图中所有点都在一条直线附近,这条直线为回归直线;散点图中的绝大多数点都在回归直线的附近,个别特殊点不影响线性回归性;已知直线方程为 0.50 x0.81,则 x25 时, 为 11.69;y y 线性回归方程的意义是它反映了样本整体的变化趋势答案 解析 对于,回归直线应使样本点总体距回归直线最近,而不是所有点都在一
21、条直线附近,故不正确,均正确7在某种产品表面进行腐蚀性刻线试验,得到腐蚀深度 y 与腐蚀时间 x 之间相应的一组观察值,如下表:x/s 5 10 15 20 30 40 50 60 70 90 120y/ m 6 10 10 13 16 17 19 23 25 29 46用散点图及相关系数两种方法判断 x 与 y 的相关性解 (1)作出如图所示的散点图- 11 -从散点图可看出腐蚀深度 y( m)与腐蚀时间 x(s)之间存在着较强的线性相关关系(2)相关系数 rni 1xiyi nx y(ni 1x2i n(xto(x)2)(ni 1y2i n(xto(y)2)0.98,显然| r|r0.05
22、0.602.所以,腐蚀深度 y 与腐蚀时间 x 之间有很强的线性相关关系二、能力提升8四名同学根据各自的样本数据研究变量 x, y 之间的相关关系,并求得线性回归方程,分别得到以下四个结论: y 与 x 负相关且 2.347 x6.423;y y 与 x 负相关且 3.476 x5.648;y y 与 x 正相关且 5.437 x8.493;y y 与 x 正相关且 4.326 x4.578.y 其中一定不正确的结论的序号是_答案 解析 中,回归方程中 x 的系数为正,不是负相关;方程中的 x 的系数为负,不是正相关,一定不正确9对具有线性相关关系的变量 x、 y 有观测数据( xi, yi)
23、(i1,2,10),它们之间的线性回归方程是 3 x20,若 i18,则 i_.y 10i 1x 10i 1y答案 254解析 由 i18,得 1.8.10i 1x x因为点( , )在直线 3 x20 上,则 25.4.x y y y- 12 -所以 i25.410254.10i 1y10一唱片公司欲知唱片费用 x(十万元)与唱片销售量 Y(千张)之间的关系,从其所发行的唱片中随机抽选了 10 张,得如下的资料: i28, 303.4, i75,10i 1x10i 1x2i10i 1y598.5, iyi237,则 y 与 x 的相关系数 r 的绝对值为_10i 1y2i10i 1x答案 0
24、.3解析 r10i 1xiyi 10xy10i 1x2i 10x210i 1y2i 10y2 0.3.237 102.87.5303.4 102.82598.5 107.5211为了对新产品进行合理定价,对该产品进行了试销试验,以观察需求量 y(单位:千件)对于价格 x(单位:千元)的反应,得数据如下:x/千元 50 70 80 40 30 90 95 97y/千件 100 80 60 120 135 55 50 48(1)若 y 与 x 之间具有线性相关关系,求 y 对 x 的线性回归方程;(2)若成本 X y500,试求:在盈亏平衡条件下(利润为零)的价格;在利润为最大的条件下,定价为多少
25、?解 (1) y 与 x 之间有线性相关关系, 1.2866,b ni 1xiyi nx yni 1x2i nx2 169.7724,a y b x线性回归方程为 1.2866 x169.7724.y (2)在盈亏平衡条件下, x 500,y y 即1.2866 x2169.7724 x- 13 -1.2866 x169.7724500,12866 x2171.059 x669.77240,解得 x1128.9162, x24.0381(舍去),此时新产品的价格为 128.9162 千元在利润最大的条件下,Q x X1.2866 x2169.7724 x1.2866 x169.77245001
26、.2866 x2171.059 x66y 9.7724.要使 Q 取得最大值, x66.4771,即此时新产品应定价为 66.4771 千元12一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了 10 次试验测得的数据如下:零件数x/个 10 20 30 40 50 60 70 80 90 100加工时间 y/分钟 62 68 75 81 89 95 102 108 115 122(1)y 与 x 是否具有线性相关关系?(2)如果 y 与 x 具有线性相关关系,求线性回归方程;(3)根据求出的线性回归方程,预测加工 200 个零件所用的时间为多少?解 (1)列出下表:i 1 2
27、 3 4 5 6 7 8 9 10xi 10 20 30 40 50 60 70 80 90 100yi 62 68 75 81 89 95 102 108 115 122xiyi 620 1360 2250 3240 4450 5700 7140 8640 10350 1220055, 91.7,x y38500, 87777, iyi55950,10i 1x2i10i 1y2i10i 1x因此 r 10i 1xiyi 10x y(isu(i 1,10,x)oal(2,i) 10xto(x)2)(isu(i 1,10,y)oal(2,i) 10xto(y)2)55950 105591.7(3
28、8500 10552)(87777 1091.72)0.9998.由于| r|0.9998 r0.050.632,因此 x 与 y 之间有很强的线性相关关系- 14 -(2)设所求的线性回归方程为 x ,则有y b a 0.668,b 10i 1xiyi 10x y10i 1x2i 10x2 55950 105591.738500 10552 91.70.6685554.96,a y b x因此,所求的线性回归方程为 0.668 x54.96.y (3)这个线性回归方程的意义是当 x 每增大 1 时, y 的值约增加 0.668,而 54.96 是 y 不随 x增加而变化的部分因此,当 x20
29、0 时, y 的估计值为 0.66820054.96188.56189.y 因此,加工 200 个零件所用的工时约为 189 分钟三、探究与创新13从某居民区随机抽取 10 个家庭,获得第 i 个家庭的月收入 xi(单位:千元)与月储蓄yi(单位:千元)的数据资料,算得 i80, i20, iyi184, 720.10i 1x10i 1y10i 1x10i 1x2i(1)求家庭的月储蓄 y 对月收入 x 的线性回归方程 x ;y b a (2)判断变量 x 与 y 之间是正相关还是负相关;(3)若该居民区某家庭月收入为 7 千元,预测该家庭的月储蓄附:线性回归方程 x 中, ,y b a b
30、ni 1xiyi nx yni 1x2i nx2 b ,其中 , 为样本平均值a y x x y解 (1)由题意知n10, i 8, i 2,x1nni 1x 8010 y 1nni 1y 2010又 lxx n 2720108 280,ni 1x2i xlxy iyi n 184108224,ni 1x xy- 15 -由此得 0.3, 20.380.4, b lxylxx 2480 a y b x故所求回归方程为 0.3 x0.4.y (2)由于变量 y 的值随 x 的值增加而增加( b0.30),故 x 与 y 之间是正相关(3)将 x7 代入回归方程可以预测该家庭的月储蓄为 0.370.41.7(千元)y