1、第6课时 线性回归分析与统计案例,1会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系 2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程 3.了解独立性检验(只要求22列联表)的基本思想、方法以及其简单应用 4.了解回归分析的基本思想、方法及其简单应用.,2011考纲下载,1以考查线性回归系数为主,同时可考查利用散点图判断两个变量间的相关关系 2.以实际生活为背景,重在考查回归方程的求法.,请注意!,课前自助餐课本导读 1两个变量的线性相关 (1)正相关 在散点图中,点散布在从左下角到右上角的区域对于两个变量的这种相关关系,我们将它们称为正相关 (2)
2、负相关 在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关 (3)线性相关关系、回归直线 如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线,R2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好在线性回归模型中,R2表示解释变量对预报变量变化的贡献率,R2越接近于1,表示回归的效果越好 4独立性检验 (1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量 (2)列联表:列出两个分类变量的二维表格,称为列联表假设有两个分类变量X和Y,它们的可能取值分别为x1,x2和y1,y2,其样本
3、频数列联表(称为22列联表)为,22列联表,(3)独立性检验 利用随机变量K2来确定是否能以一定把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验,教材回归,答案 A,2(09海南)对变量x,y有观测数据(xi,yi)(i1,2,10),得散点图1;对变量u,v有观测数据(ui,vi)(i1,2,10),得散点图2,由这两个散点图可以判断( ) A变量x与y正相关,u与v正相关 B变量x与y正相关,u与v负相关 C变量x与y负相关,u与v正相关 D变量x与y负相关,u与v负相关 答案 C,解析 夹在带状区域内的点,总体呈上升趋势的属于正相 关;反之,总体呈下降趋势的属于负相关显然
4、选C. 3甲、乙、丙、丁四位同学各自对A、B两变量的线性相关性作试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:,则哪位同学的试验结果体现A、B两变量更强的线性相关性?( ) A甲 B乙 C丙 D丁 答案 D 解析 r0且丁最接近1,残差平方和越小,相关性越高,故选D. 4在一项打鼾与患心脏的调查中,共调查了1671人,经过计算K227.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是_的(有关,无关),授人以渔 题型一 利用散点图判断两个变量的相关性 例1 下面是水稻产量与施化肥量的一组观测数据: 施化肥量 15 20 25 30 35 40 45 水稻产量 320 33
5、0 360 410 460 470 480 (1)将上述数据制成散点图; (2)你能从散点图中发现施化肥量与水稻产量近似成什么关系吗?水稻产量会一直随施化肥量的增加而增长吗?,【解析】 (1),(2)从图中可以发现施化肥量与水稻产量具有线性相关关系,当施化肥量由小到大变化时,水稻产量由小变大,图中的数据点大致分布在一条直线的附近,因此施化肥量和水稻产量近似成线性相关关系,但水稻产量只是在一定范围内随着化肥施用量的增加而增长,探究1 散点图是由大量数据点分布构成的,是定义在具有相关关系的两个变量基础之上的,对于性质不明确的两组数据可先作散点图,直观地分析它们有无关系及关系的密切程度 思考题1 在
6、某地区的1230岁居民中随机抽取了10个人的身高和体重的统计资料如表:,根据上述数据,画出散点图并判断居民的身高和体重之间是否有相关关系 【思路分析】 (1)用x轴表示身高,y轴表示体重,逐一描出各组值对应的点 (2)分析两个变量是否存在相关关系 【解析】 以x轴表示身高,y轴表示体重,可得到相应的散点图如图所示:,由散点图可知,两者之间具有相关关系,且为正相关,题型二 利用回归方程对总体进行估计 例2 某种产品的广告费支出x与销售额y(单位:百万元)之间有如下对应数据:(1)画出散点图; (2)求回归直线方程; (3)试预测广告费支出为10百万元时,销售额多大?,【解析】 (1)根据表中所列
7、数据可得散点图如下:(2)列出下表,并用科学计算器进行有关计算.,即这种产品的销售收入大约为55.4百万元 探究2 利用回归方程可以预测估计总体,回归方程将部分观测值所反映的规律进行延伸,是我们对有线性相关关系的两个变量进行分析和控制,依据自变量的取值估计和预报因变量值的基础和依据,有广泛的应用 思考题2 假设关于某设备的使用年限x和所支出的维修费用y(万元),有如下表的统计资料:,题型三 线性回归分析 例3 一台机器使用时间较长,但还可以使用它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点零件的多少随机器运转的速度而变化,下表为抽样试验结果:(1)对变量y与x进行相关性检验
8、; (2)如果y与x有线性相关关系,求线性回归方程; (3)若实际生产中,允许每小时的产品中有缺点的零件最多为10个,那么,机器的运转速度应控制在什么范围内?,思考题3 测得某国10对父子身高(单位:英寸)如下:(1)对变量y与x进行相关性检验; (2)如果y与x之间具有线性相关关系,求回归方程; (3)如果父亲的身高为73英寸,估计儿子的身高 【思路分析】 (1)先根据已知计算相关系数r,判断是否具有相关关系 (2)再利用公式求出回归方程进行回归分析,题型四 独立性检验 例4 (2010新课标全国卷)为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结
9、果如下:,(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例; (2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关? (3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由 附:,(3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法比采用简单随机抽样方法更好 探究3 解决此类问题的关键是确定a,b,c,d,n的值并求出K2的观测值,并
10、与可信程度分界值相比较,注意正确运用公式,准确代入数据 思考题4 在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人,女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动,(1)根据以上数据建立一个22的列联表; (2)试判断性别与休闲方式是否有关系 【解析】 (1)列联表如下:,(2)提出统计假设H0:性别与休闲方式没有关系,根据表中数据,由公式得K2的观测值为k6.201 23.841 因为P(K23.841)0.05.所以有95%的把握认为性别与休闲方式有关系,本课总结,1线性回归分析以散点图为基础,具有很强的直观性,有散点图作比较时,拟合效果的好坏可由直观性直接判断,没有散点图时,只须套用公式求r,R2再作判断即可 2独立性检验没有直观性,必须依靠K2的观测值K作判断,课时作业(53),