1、第4课时 线性回归分析与统计案例1甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r如下表:甲乙丙丁r0.820.780.690.85则哪位同学的试验结果体现A,B两变量有更强的线性相关性()A甲B乙C丙 D丁答案D2(2018湖北七市联考)广告投入对商品的销售额有较大影响某电商对连续5个年度的广告费x和销售额y进行统计,得到统计数据如下表(单位:万元):广告费x23456销售额y2941505971由上表可得回归方程为10.2x,据此模型,预测广告费为10万元时销售额约为()A101.2万元 B108.8万元C111.2万元 D118.2万元答案C
2、解析根据统计数据表,可得(23456)4,(2941505971)50,而回归直线10.2x经过样本点的中心(4,50),5010.24,解得9.2,回归方程为10.2x9.2,当x10时,10.2109.2111.2,故选C.3(2018赣州一模)以下四个命题:从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;两个随机变量相关性越强,则相关系数的绝对值越接近于1;在回归直线方程0.2x12中,当解释变量x每增加1个单位时,预报变量平均增加0.2个单位;分类变量X与Y,对它们的随机变量K2的观测值k来说,k越小,“X与Y有关系”的把握程度越大
3、其中真命题为()A BC D答案D解析为系统抽样;分类变量X与Y,对它们的随机变量K2的观测值k来说,k越大,“X与Y有关系”的把握程度越大4下面是一个22列联表y1y2总计x1a2173x2222547合计b46120其中a,b处填的值分别为()A9472 B5250C5274 D7452答案C解析由a2173,得a52,a22b,得b74.故选C.5(2018湖南衡阳联考)甲、乙、丙、丁四位同学各自对A,B两个变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m,如下表:甲乙丙丁r0.820.780.690.85m106115124103则哪位同学的试验结果体现A,B两
4、变量有更强的线性相关性()A甲 B乙C丙 D丁答案D解析r越大,m越小,线性相关性越强故选D.6(2018衡水中学调研)以下四个命题中,真命题是()A对分类变量x与y的随机变量K2的观测值k来说,k越小,判断“x与y有关系”的把握程度越大B两个随机变量的线性相关性越强,相关系数的绝对值越接近于0C若数据x1,x2,x3,xn的方差为1,则2x1,2x2,2x3,2xn的方差为2D在回归分析中,可用相关指数R2的值判断模型的拟合效果,R2越大,模型的拟合效果越好答案D解析对于A,对分类变量x与y的随机变量K2的观测值k来说,k越大,判断“x与y有关系”的把握程度越大,故A错误;对于B,两个随机变
5、量的线性相关性越强,相关系数的绝对值越接近于1,故B错误;对于C,若数据x1,x2,x3,xn的方差为1,则2x1,2x2,2x3,2xn的方差为4,故C错误;对于D,根据离散变量的线性相关及相关指数的有关知识可知D正确72015年年度史诗大剧芈月传风靡大江南北,影响力不亚于以前的甄嬛传某记者调查了大量芈月传的观众,发现年龄段与爱看的比例存在较好的线性相关关系,年龄在10,14,15,19,20,24,25,2930,34的爱看比例分别为10%,18%,20%,30%,t%.现用这5个年龄段的中间值代表年龄段,如12代表10,14,17代表15,19,根据前四个数据求得爱看比例y关于x的线性回
6、归方程为y(kx4.68)%,由此可推测t的值为()A33 B35C37 D39答案B解析依题意,x(12172227)19.5,y(10%18%20%30%)19.5%,又回归直线必过点(x,y),19.5%(k19.54.68)%,解得k,当x32时,(324.68)%35%,t35.8(2018广西南宁月考)某同学寒假期间对其30位亲属的饮食习惯进行了一次调查,列出了如下列联表:偏爱蔬菜偏爱肉类合计50岁以下481250岁以上16218合计201030则可以说其亲属的饮食习惯与年龄有关的把握为()附:K2.P(K2k0)0.150.100.050.0250.0100.0050.001k0
7、2.0722.7063.8415.0246.6357.87910.828A.90% B95%C99% D99.9%答案C解析由22列联表知,K210.K26.635,K210.828,有99%的把握认为其亲属的饮食习惯与年龄有关92017世界特色魅力城市200强新鲜出炉,包括黄山市在内的28个中国城市入选,美丽的黄山风景和人文景观迎来众多宾客现在很多人喜欢“自助游”,某调查机构为了了解“自助游”是否与性别有关,在黄山旅游节期间,随机抽取了100人,得如下所示的列联表:赞成“自助游”不赞成“自助游”合计男性301545女性451055合计7525100参照公式,得到的正确结论是()A有99.5%
8、以上的把握认为“赞成自助游与性别无关”B有99.5%以上的把握认为“赞成自助游与性别有关”C在犯错误的概率不超过0.1的前提下,认为“赞成自助游与性别无关” D在犯错误的概率不超过0.1的前提下,认为“赞成自助游与性别有关”参考公式:K2,其中nabcd.P(K2k0)0.150.100.050.0250.0100.0050.001k02.0722.7063.8415.0246.6357.87910.828答案D解析将22列联表中的数据代入计算,得K23.030,2.7063.0303.841,在犯错误的概率不超过0.1的前提下,可以认为“赞成自助游与性别有关”10某研究机构对高三学生的记忆力
9、x和判断力y进行统计分析,所得数据如下表:x681012y2356则y对x的线性回归直线方程为()A2.3x0.7 B2.3x0.7C0.7x2.3 D0.7x2.3(相关公式:,yx)答案C解析xiyi6283105126158,x9,y4.0.7,40.792.3.故线性回归直线方程为0.7x2.3.11在一次考试中,5名学生的数学和物理成绩如下表:(已知学生的数学和物理成绩具有线性相关关系)学生的编号i12345数学成绩x8075706560物理成绩y7066686462现已知其线性回归方程为 0.36x ,则根据此线性回归方程估计数学得90分的同学的物理成绩为_(四舍五入到整数)答案7
10、3解析70,66,所以660.3670 ,解得 40.8.所以0.369040.873.273.12某工厂为了对一种新研发的产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x(元)456789销量y(件)908483807568由表中数据,求得线性回归方程为4x.若在这些样本点中任取一点,则它在回归直线左下方的概率为_答案解析由表中数据得x6.5,y80,由y4x,得106,故线性回归方程为4x106.将(4,90),(5,84),(6,83),(7,80),(8,75),(9,68)分别代入回归方程,可知有6个基本事件,因844510686,687.879,故有99.5
11、%的把握认为“心率小于60次/分与常年进行系统的身体锻炼有关”14(2018山东日照一模)某学校高三年级有学生500人,其中男生300人,女生200人为了研究学生的数学成绩是否与性别有关,现采用分层抽样的方法,从中抽取了100名学生,先统计了他们期中考试的数学分数,然后按性别分为男、女两组,再将两组学生的分数分成5组:100,110),110,120),120,130),130,140),140,150分别加以统计,得到如图所示的频率分布直方图(1)从样本中分数低于110分的学生中随机抽取两人,求这两人恰好为一男一女的概率;(2)若规定分数不低于130分的学生为“数学尖子生”,请你根据已知条件
12、完成22列联表,并判断是否有90%的把握认为“数学尖子生与性别有关”附:K2P(K2k0)0.100.050.0100.0050.001k02.7063.8416.6357.87910.828答案(1)(2)有关解析(1)由已知得,抽取的100名学生中,男生60名,女生40名分数低于110分的学生中,男生有600.053(人),记为A1,A2,A3;女生有400.052(人),记为B1,B2.从中随机抽取两名学生,所有的可能结果共有10种,它们是(A1,A2),(A1,A3),(A2,A3),(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2)(B1,
13、B2);其中两名学生恰好为一男一女的可能结果共有6种,它们是(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2)所求概率为P.(2)由频率分布直方图可知,在抽取的100名学生中,分数不低于130分的男生人数为600.2515,分数不低于130分的女生人数为400.416,据此可得22列联表如下:数学尖子生非数学尖子生合计男生154560女生162440合计3169100K22.5252.706,没有90%的把握认为“数学尖子生与性别有关”15(2017四川广元二诊)某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记
14、录了12月1日至12月5日的每天昼夜温差与实验室每天每100颗种子中的发芽数,得到如下资料:日期12月1日12月2日12月3日12月4日12月5日温差x()101113128发芽数y(颗)2325302616该农科所确定的研究方案是:先从这5组数据中选取2组,用剩下的3组数据求线性回归方程,再对被选取的2组数据进行检验(1)求选取的2组数据恰好是不相邻两天数据的概率;(2)若选取的是12月1日与12月5日的数据,请根据12月2日至12月4日的数据,求出y关于x的线性回归方程x;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗则认为得到的线性回归方程是可靠的试问(2)中所
15、得到的线性回归方程是可靠的吗?附:回归直线的斜率和截距的最小二乘估计公式分别为:答案(1)(2) x3(3)可靠解析(1)设“选取的2组数据恰好是不相邻两天的数据”为事件A.从5组数据中选取2组数据共有10种情况:(1,2),(1,3),(1,4),(1,5),(2,3),(2,4),(2,5),(3,4),(3,5),(4,5),其中数据为12月份的日期数每种情况都是等可能出现的,事件A包括的基本事件有6种P(A).选取的2组数据恰好是不相邻两天数据的概率是.(2)由数据可得12,27., 27123.y关于x的线性回归方程为x3.(3)当x10时,10322,|2223|2;同理,当x8时
16、,8317,|1716|2.(2)中所得到的线性回归方程是可靠的16(2018河北唐山模拟)某市春节期间7家超市的广告费支出xi(万元)和销售额yi(万元)数据如下:超市ABCDEFG广告费支出xi1246111319销售额yi19324044525354(1)若用线性回归模型拟合y与x的关系,求y关于x的线性回归方程;(2)用二次函数回归模型拟合y与x的关系,可得回归方程:y0.17x25x20,经计算二次函数回归模型和线性回归模型的R2分别约为0.92和0.75,请用R2说明选择哪个回归模型更合适,并用此模型预测A超市广告费支出3万元时的销售额参考数据及公式:x8,y42,xiyi2 79
17、4,xi2708,yx.答案(1) 1.7x28.4(2)33.47解析(1) 1.7,yx421.7828.4.y关于x的线性回归方程是1.7x28.4.(2)0.750.75,所以x与y之间具有很强的线性相关关系(4)当x10时,1.23100.0812.38,即估计使用年限为10年时,维修费用约为12.38万元5(2018广东韶关期末)某商店为了更好地规划某种商品的进货量,从某一年的销售数据中,随机抽取了8组数据作为研究对象,如下表所示(x为该商品的进货量,y为销售天数)x/吨234568911y/天12334568(1)根据上表数据在下图所示的网格中绘制散点图;(2)根据上表提供的数据,求出y关于x的线性回归方程x;(3)根据(2)中的计算结果,若该商店准备一次性进货24吨,预测需要销售的天数参考公式和数据:,yx;xi2356,xiyi241.答案(1)略(2) x(3)17天解析(1)散点图如图所示:(2)依题意,得x(234568911)6,y(12334568)4,又xi2356,xiyi241,所以,46,故线性回归方程为x.(3)由(2)知,当x24时,2417,故若该商店一次性进货24吨,则预计需要销售17天12