1、- 1 -3.2 回归分析学习目标 1.会建立线性回归模型分析两个变量间的相关关系.2.能通过相关系数判断两个变量间的线性相关程度.3.了解非线性回归分析知识点一 线性回归模型思考 某电脑公司有 5 名产品推销员,其工作年限与年推销金额数据如下表:推销员编号 1 2 3 4 5工作年限 x/年 3 5 6 7 9推销金额 y/万元 2 3 3 4 5请问如何表示推销金额 y 与工作年限 x 之间的相关关系? y 关于 x 的线性回归方程是什么?梳理 线性回归模型(1)随机误差具有线性相关关系的两个变量的取值 x、 y, y 的值不能由 x 完全确定,可将 x, y 之间的关- 2 -系表示为
2、y a bx ,其中_是确定性函数,_称为随机误差(2)随机误差产生的主要原因所用的_不恰当引起的误差;忽略了_;存在_误差(3)线性回归模型中 a, b 值的求法y_称为线性回归模型a, b 的估计值为 ,则a b Error!(4)回归直线和线性回归方程直线 x 称为回归直线,此直线方程即为线性回归方程, 称为_, 称为y a b a b _, 称为_y 知识点二 样本相关系数 r具有相关关系的两个变量的线性回归方程 x .y b a 思考 1 变量 与真实值 y 一样吗?y 思考 2 变量 与真实值 y 之间误差大了好还是小了好?y 梳理 样本相关系数 r 及其性质(1)r_.(2)r
3、具有以下性质:| r|_;| r|越接近于_, x, y 的线性相关程度越强;| r|越接近于_, x, y 的线性相关程度越弱知识点三 对相对关系数 r 进行显著性检验的基本步骤1_:变量 x, y 不具有线性相关关系;2如果以 95%的把握作出判断,那么可以根据 10.950.05 与 n2 在教材附录 2 中查出一个 r 的临界值 r0.05(其中 10.950.05 称为检验水平);3计算_;- 3 -4作出统计推断:若| r|_,则否定 H0,表明有_的把握认为 x 与 y 之间具有线性相关关系;若| r| r0.05,则_原来的假设 H0,即就目前数据而言,没有充分理由认为 y 与
4、 x 之间有线性相关关系类型一 求线性回归方程例 1 某研究机构对高三学生的记忆力 x 和判断力 y 进行统计分析,得下表数据:x 6 8 10 12y 2 3 5 6(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出 y 关于 x 的线性回归方程 x ;y b a (3)试根据求出的线性回归方程,预测记忆力为 9 的同学的判断力(相关公式: , )b ni 1xiyi nx yni 1x2i n x2 a y b x- 4 -反思与感悟 (1)求线性回归方程的基本步骤列出散点图,从直观上分析数据间是否存在线性相关关系计算: , , iyi.xyni 1x2ini 1x
5、代入公式求出 x 中参数 , 的值y b a b a 写出线性回归方程并对实际问题作出估计(2)需特别注意的是,只有在散点图大致呈线性时,求出的回归方程才有实际意义,否则求出的回归方程毫无意义跟踪训练 1 某班 5 名学生的数学和物理成绩如下表:学生编号 1 2 3 4 5学科编号 A B C D E数学成绩( x) 88 76 73 66 63物理成绩( y) 78 65 71 64 61(1)画出散点图;(2)求物理成绩 y 对数学成绩 x 的线性回归方程;(3)一名学生的数学成绩是 96,试预测他的物理成绩- 5 -类型二 线性回归分析例 2 现随机抽取了某中学高一 10 名在校学生,他
6、们入学时的数学成绩( x)与入学后第一次考试的数学成绩( y)如下:学生号 1 2 3 4 5 6 7 8 9 10x 120 108 117 104 103 110 104 105 99 108y 84 64 84 68 69 68 69 46 57 71请问:这 10 名学生的两次数学成绩是否具有线性关系?反思与感悟 相关关系的两种判定方法及流程(1)利用散点图判定的流程- 6 -(2)利用相关系数判定的流程 计 算 r 结 合 r与 相 关 关 系 的 关 系 判 断跟踪训练 2 一台机器由于使用时间较长,但还可以使用,它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点的
7、零件的多少,随机器运转的速度而变化,下表为抽样试验的结果:转速 x(转/秒) 16 14 12 8每小时生产有缺点的零件数 y(件) 11 9 8 5对变量 y 与 x 进行线性相关性检验类型三 非线性回归分析例 3 下表为收集到的一组数据:x 21 23 25 27 29 32 35y 7 11 21 24 66 115 325(1)作出 x 与 y 的散点图,并猜测 x 与 y 之间的关系;(2)建立 x 与 y 的关系;(3)利用所得模型,估计当 x40 时 y 的值- 7 -反思与感悟 非线性回归问题的处理方法(1)指数函数型 ye bx a函数 ye bx a的图象处理方法:两边取对
8、数,得 ln yln ebx a,即 ln y bx a.令 zln y,把原始数据(x, y)转化为( x, z),再根据线性回归模型的方法求出 a, b.(2)对数函数型 y bln x a函数 y bln x a 的图象:处理方法:设 xln x,原方程可化为 y bx a,再根据线性回归模型的方法求出 a, b.(3)y bx2 a 型处理方法:设 x x2,原方程可化为 y bx a,再根据线性回归模型的方法求出 a, b.跟踪训练 3 已知某种食品每千克的生产成本 y(元)与生产该食品的重量 x(千克)有关,经生产统计得到以下数据:x 1 2 3 5 10y 10.15 5.52
9、4.08 2.85 2.11x 20 30 50 100 200- 8 -y 1.62 1.41 1.30 1.21 1.15通过以上数据,判断该食品的生产成本 y(元)与生产的重量 x(千克)的倒数 之间是否具有线1x性相关关系若有,求出 y 关于 的回归方程,并估计一下生产该食品 500 千克时每千克的1x生产成本是多少(精确到 0.01)1设有一个线性回归方程 21.5 x,当变量 x 增加 1 个单位时, y 平均_个单位y 2如图四个散点图中,适合用线性回归模型拟合其中两个变量的是_(填序号)3某厂节能降耗技术改造后,在生产 A 产品过程中记录的产量 x(吨)与相应的生产能耗y(吨)
10、的几组对应数据如表:x 3 4 5 6y 2.5 t 4 4.5根据上表提供的数据,求出 y 关于 x 的线性回归方程为 0.7 x0.35,则上表中的y t_.4下表是 x 和 y 之间的一组数据,则 y 关于 x 的回归直线必过点_x 1 2 3 4y 1 3 5 75.已知 x、 y 之间的一组数据如下表:- 9 -x 0 1 2 3y 1 3 5 7(1)分别计算: 、 x1y1 x2y2 x3y3 x4y4、 x x x x ;xy 21 2 23 24(2)已知变量 x 与 y 线性相关,求出回归方程回归分析的步骤(1)确定研究对象,明确哪个变量是自变量,哪个变量是因变量;(2)画
11、出确定好的自变量和因变量的散点图,观察它们之间的关系(如是否存在线性关系等);(3)由经验确定回归方程的类型(如果呈线性关系,则选用线性回归方程 x );y b a (4)按一定规则估计回归方程中的参数- 10 -答案精析问题导学知识点一思考 画出散点图,由图可知,样本点散布在一条直线附近,因此可用回归直线表示变量之间的相关关系设所求的线性回归方程为 x ,y b a 则 0.5,b 5i 1xi xyi y5i 1xi x2 1020 0.4.a y b x所以年推销金额 y 关于工作年限 x 的线性回归方程为 0.5 x0.4.y 梳理 (1) a bx (2)确定性函数某些因素的影响 观
12、测(3)a bx ni 1xiyi nx yni 1x2i nx2 y b x(4)回归截距 回归系数 回归值知识点二思考 1 不一定思考 2 越小越好梳理 (1)ni 1xiyi nx y ni 1x2i nx2 ni 1y2i ny2- 11 -(2)1 1 0知识点三1提出统计假设 H0 3.样本相关系数 r4 r0.05 95% 没有理由拒绝题型探究例 1 解 (1)如图:(2) iyi6283105126158,4i 1x 9, 4,x6 8 10 124 y 2 3 5 646 28 210 212 2344,4i 1x2i 0.7,b 158 494344 492 1420 40
13、.792.3,a y b x故线性回归方程为 0.7 x2.3.y (3)由(2)中线性回归方程可知,当 x9 时, 0.792.34,预测记忆力为 9 的同学的y 判断力约为 4.跟踪训练 1 解 (1)散点图如图(2) (8876736663)x1573.2, (7865716461)67.8.y15- 12 -iyi8878766573716664636125 054.5i 1x88 276 273 266 263 227 174.5i 1x2i所以 b 5i 1xiyi 5x y5i 1x2i 5x2 0.625.25 054 573.267.827 174 573.22 67.80.
14、62573.222.05.a y b x所以 y 对 x 的线性回归方程是 0.625 x22.05.y (3)当 x96 时, 0.6259622.0582,即可以预测他的物理成绩是 82.y 例 2 解 (12010899108)107.8,x110 (84645771)68.y110120 2108 299 2108 210i 1x2i116 584.84 264 257 271 247 384.10i 1y2iiyi120841086499571087173 796.10i 1x所以相关系数为r73 796 10107.868116 584 10107.8247 384 106820.
15、751.由检验水平 0.05 及 n28,在附录 2 中查得 r0.050.632.因为 0.7510.632,由此可看出这 10 名学生的两次数学成绩具有较强的线性相关关系- 13 -跟踪训练 2 解 由题中数据可得 12.5, 8.25,x yiyi438,4 412.5, 660, 291,4i 1x xy4i 1x2i4i 1y2i所以 r4i 1xiyi 4x y 4i 1x2i 4x2 4i 1y2i 4y2438 412.5660 625291 272.25 0.995.25.5656.25由检验水平 0.05 及 n22,在教材附录表 2 中查得 r0.050.950,因为 r
16、 r0.05,所以 y与 x 具有线性相关关系例 3 解 (1)作出散点图如图,从散点图可以看出 x 与 y 不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数型函数曲线 y c1ec2x 的周围,其中 c1、 c2为待定的参数(2)对两边取对数把指数关系变为线性关系,令 zln y,则有变换后的样本点应分布在直线z bx a, aln c1, b c2的周围,这样就可以利用线性回归模型来建立 y 与 x 之间的非线性回归方程,数据可以转化为x 21 23 25 27 29 32 35z 1.946 2.398 3.045 3.178 4.190 4.745 5.784求得线性回归
17、方程为0.272 x3.849,z e 0.272x3.849 .y (3)当 x40 时, e 0.272x3.849 1 131.y - 14 -跟踪训练 3 解 设 u ,通过已知数据得到 y 与 u 的相应数据为1xu1x1 0.5 0.33 0.2 0.1y 10.15 5.52 4.08 2.85 2.11u1x0.05 0.03 0.02 0.01 0.005y 1.62 1.41 1.30 1.21 1.15根据上述数据可求得相关系数r10i 1uiyi 10uy10i 1u2i 10u210i 1y2i 10y20.999 8,于是有很大的把握认为 y 与 具有线性相关关系1
18、x而 8.973,b 10i 1uiyi 10uy10i 1u2i 10u2 1.126,a y b u于是 y 与 的回归方程为 1.126.1x y 8.973x当 x500 时, 1.1261.14.y 8.973500所以估计生产该食品 500 千克时每千克的生产成本是 1.14 元当堂训练1减少 1.5 2. 3.3 4.(2.5,4)5解 (1) 1.5, 4,x0 1 2 34 y 1 3 5 74x1y1 x2y2 x3y3 x4y40113253734,x x x x 0 21 22 23 214.21 2 23 24(2) 2,b 34 41.5414 41.52 421.51,a y b x- 15 -故 2 x1.y