1、第一章 统计案例1.1 回归分析的基本思想及其初步应用1回归分析回归分析是对具有_的两个变量进行统计分析的一种常用方法,回归分析的基本步骤是画出两个变量的_,求_,并用回归方程进行预报2线性回归模型(1)在线性回归方程 中,yabx, _.其中 _,1122()nniiiii iixybxax_, 称为样本的中心.y(,)y(2)线性回归模型 ,其中称为_,自变量称为bxae_变量,因变量 称为_变量y温馨提示:是回归直线的斜率的估计值,表示每增加一个单位, 的平均增y加单位数3刻画回归效果的方式方式方法 计算公式 刻画效果2R_2R越_,表示回归的2R效果越好残差图称为相应于点 的残ie(,
2、)ixy差,_i残差点_地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度_,说明模型拟合精确度越高.残差平方和 21()niiy残差平方和越_,模型的拟合效果越好K 知识参考答案1相关关系 散点图 回归方程2 ( 1) (2)随机误差 解释 预报ybx1ni1niy3 接近于 1 21()niiiiy比较均匀 越窄i小K重点1.了解随机误差、残差、残差分析的概念2.会用残差分析判断线性回归模型的拟合效果3.掌握建立回归模型的步骤K难点通过对典型案例的探究,了解回归分析的基本思想方法和初步应用K易错 不能准确理解概念和参数的含义一、 K 重点概念辨析有下列说法:线性回归分
3、析就是由样本点去寻找一条直线,使之贴近这些样本点的数学方法;利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;通过回归方程 可以估计观测变量的取值和变化趋势;ybxa因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验其中正确命题的个数是A1 B2C3 D4【答案】C【解析】反映的正是最小二乘法思想,故正确反映的是画散点图的作用,也正确解释的是回归方程 的作用,故也正确ybxa是不正确的,在求回归方程之前必须进行相关性检验,以体现两变量的关系【名师点睛】由题目可获取以下信息:线性回归分析;散点图;相关性检验等的相关概念及意义解答本题可先逐一核对相关概念及
4、其性质,然后再逐一作出判断,最后得出结论二、K 重点线性回归模型一台机器由于使用时间较长,生产的零件有一些会缺损,按不同转速生产出来的零件有缺损的统计数据如下表:转速 x(转/秒) 16 14 12 8每小时生产缺损零件数 y(件) 11 9 8 5(1)作出散点图;(2)如果 与线性相关,求出回归直线方程;y(3)若实际生产中,允许每小时生产的产品中有缺损的零件最多为 10 个,那么,机器的转速应控制在什么范围内?(结果保留整数)附:线性回归方程 中, ,其中 为样本平均ybxa12,niixyaybx,y值.【答案】详见解析【解析】(1)根据表中的数据画出散点图如下图:(2)由题中数据列表
5、如下:i 1 2 3 4xi 16 14 12 8yi 11 9 8 5xiyi 176 126 96 40,4421112.5,8.,60,3iixy , 23.5 .7,8.25071.0.875604ba .78yx(3 )令 ,解得 .514.915x故机器的运转速度应控制在 转/秒内.【名师点睛】1求回归直线方程的一般步骤(1)作出散点图,依据问题所给的数据在平面直角坐标系中描点,观察点的分布是否呈条状分布,即是否在一条直线附近,从而判断两变量是否具有线性相关关系(2)当两变量具有线性相关关系时,求回归系数 ,写出回归直线方程ab、2回归直线方程 中的表示 x 每增加 1 个单位时,
6、 的变化量的估计yabxy值为可以利用回归直线方程 预报在取某个值时 的估计值由于回归直线方程中的系数和是通过样本估计而来的,存在着误差,这种误差可能导致预报结果有偏差 三、K 难点线性回归分析为研究重量(单位:克)对弹簧长度 (单位:厘米)的影响,对不同重y量的 6 个物体进行测量,数据如下表所示:x 5 10 15 20 25 30y 7.25 8.12 8.95 9.90 10.9 11.8(1)作出散点图,并求回归方程:(2)求相关指数 R2,并判断模型的拟合效果;(3)进行残差分析【答案】详见解析【解析】 (1)散点图如下图所示:从散点图,可以看出这些点大致分布在一条直线的附近,因此
7、,可用公式求得线性回归方程的系数.因为 ,15025(301)7.6x,7.28.9.98.4y , 615ix61072ixy计算,得 .3,.5ba所以所求回归方程为 8.13x(2)列表如下: iy0.05 0.005 0.8.0450.04 0.025i2.41.37511.41 2.316 621 1()08,()4.6i ii iy所以 ,2.947R所以回归模型的拟合效果较好(3)由表中数据可以看出残差点比较均匀地落在比较狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与拉力呈线性关系由残差表中的数值可以看出第 3 个样本点的残差比较大,需要确认在
8、采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型【名师点睛】1.线性回归分析的过程:(1)随机抽取样本,确定数据,形成样本点;(2)由样本点形成散点图,判定是否具有线性相关关系;(3)由最小二乘法求线性回归方程;(4)进行残差分析,分析模型的拟合效果,不合适时,分析错因,予以纠正;(5)依据回归方程作出预报2 用 散 点 图 可 粗 略 判 断 两 个 变 量 间 有 无 线 性 相 关 关 系 , 用 相 关 指 数 R2 可以 描 述 两 个 变 量 之 间 的 密 切 程 度四、K 难点非线性回归分析在一次抽样调查中测得样本的 5 个样本点,数值如表:x 0
9、.25 0.5 1 2 4y 16 12 5 2 1试建立 y 与 x 之间的回归方程【答案】详见解析【解析】作出变量 y 与 x 之间的散点图如图所示由图可知变量 y 与 x 近似地呈反比例函数关系设 ,令 ,则 .由 y 与 x 的数据表可得 y 与 t 的数据表:kyx1tktt 4 2 1 0.5 0.25y 16 12 5 2 1作出 y 与 t 的散点图如图所示由图可知 y 与 t 呈近似的线性相关关系又 ,552111.,7.2,94.,.3i ittyt,51 22.5.7 .43iityb,7.41.0.8ayt .308所以 y 与 x 的回归方程是 .4.13yx【名师点
10、睛】求非线性回归方程的步骤:1确定变量,作出散点图2根据散点图,选择恰当的拟合函数3变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程4分析拟合效果:通过计算相关指数或画残差图来判断拟合效果5根据相应的变换,写出非线性回归方程五、K 易错不能准确理解概念和参数的含义关于与 有如下数据:yx 2 4 5 6 8y 30 40 60 50 70为了对 两个变量进行统计分析,现有以下两种线性模型:甲模型、,乙模型 ,试比较哪一个模型拟合的效果更好6.5=.+17x1=7+yx【错解】 ,5221()15=0.84iiiiyR甲,5221()180.2iiiiy乙 2R甲 乙
11、乙模型拟合的效果更好【错因分析】明确 的大小与拟合效果的关系2用相关指数 来比较模型的拟合效果, 越大,模型的拟合效果越好,并不是 越小R2R2R模型的拟合效果越好【正解】 ,5221()15=0.84iiiiy甲,5221()180.2iiiiyR乙 2甲 乙甲模型拟合的效果更好1已知回归直线方程 ,若变量 x 每增加 1 个单位,则2.5yxAy 平均增加 2.5 个单位By 平均增加 1 个单位Cy 平均减少 2.5 个单位Dy 平均减少 2 个单位2在回归分析中,相关指数 R2 的值越大,说明残差平方和A越大 B越小C可能大也可能小 D以上均错3对两个变量 y 和 x 进行回归分析,得
12、到一组样本数据:,则下列说法中不正确的是12,)(,)nxy, ,A由样本数据得到的回归方程 必过样本点的中心bxa(,)xyB残差平方和越小的模型,拟合的效果越好C用相关指数 来刻画回归效果, 的值越小,说明模型的拟合效果越好2R2RD若变量 y 和 x 之间的相关系数 ,则变量 y 与 x 之间具有线性相关0.936r关系4在对两个变量 x,y 进行回归分析时有以下操作:求回归方程;收集数据(x i,y i) ,i=1,2,n;对所求出的回归方程作出解释;根据所收集的数据绘制散点图则下列操作顺序正确的是A BC D5关于随机误差产生的原因分析正确的是(1)用线性回归模型来近似真实模型所引起
13、的误差;(2)忽略某些因素的影响所产生的误差;(3)对样本数据观测时产生的误差;(4)计算错误所产生的误差A (1) (2) (4) B (1) (3)C (2 ) (4) D (1) (2) (3)6在如图所示的 5 组数据中,去掉_后,剩下的 4 组数据线性相关性更强.7已知回归直线的斜率的估计值为 1.23,样本点的中心为(4,5) ,则回归直线方程是_8某班 5 名学生的数学和物理成绩如下表:学生学科 A B C D E数学成绩(x)88 76 73 66 63物理成绩(y)78 65 71 64 61(1)画出散点图;(2)求物理成绩 y 对数学成绩 x 的回归方程;(3)一名学生的
14、数学成绩是 96 分,试预测他的物理成绩9某商场为了了解毛衣的月销售量 (件)与月平均气温( )之间的关系,随机统计了某y4 个月的月销售量与当月平均气温,其数据如下表:月平均气温() 17 13 8 2月销售量 (件)y24 33 40 55由表中数据算出线性回归方程 中的 ,气象部门预测下个月的平均气温约bxa2为 ,据此估计该商场下个月毛衣销售量约为件6A46 B40 C70 D5810已知方程 是根据女大学生的身高预报她的体重的回归方程,0.852.71yx其中 x 的单位是 cm, 的单位是 kg,那么针对某个体(160,53)的残差是y_11某学生课外活动兴趣小组对两个相关变量收集到 5 组数据如下表: x 10 20 30 40 50y 62 75 81 89由最小二乘法求得回归方程为 ,现发现表中有一个数据模糊不0.6754.9yx清,请推断该点数据的值为_