1、专题5 回归分析 例1已知回归方程y=5x+1,则该方程在样本(1,4)处的残差为()A2B1C2D5例2研究变量x,y得到一组样本数据,进行回归分析,有以下结论残差平方和越小的模型,拟合的效果越好;用相关指数R2来刻画回归效果,R2越小说明拟合效果越好;在回归直线方程y=-0.2x+0.8中,当解释变量x每增加1个单位时,预报变量y平均减少0.2个单位;若变量y和x之间的相关系数为r0.9462,则变量y和x之间的负相关很强以上正确说法的是 例3下列命题中,正确的命题有 回归直线y=bx+a恒过样本点中心(x,y),且至少过一个样本点;用相关指数R2来刻画回归效果,表示预报变量对解释变量变化
2、的贡献率,R2越接近于1说明模型的拟合效果越好;残差图中残差点比较均匀的落在水平的带状区域中,说明选用的模型比较合适;两个模型中残差平方和越大的模型的拟合效果越好例4下列命题:相关指数R2越小,则残差平方和越大,模型的拟合效果越好对分类变量X与Y的随机变量K2的观测值k来说,k越小,“X与Y有关系”可信程度越大残差点比较均匀地落在水平带状区域内,带状区域越宽,说明模型拟合精度越高两个随机变量相关性越强,则相关系数的绝对值越接近0其中错误命题的个数为 例5垃圾是人类日常生活和生产中产生的废弃物,由于排出量大,成分复杂多样,且具有污染性,所以需要无害化、减量化处理某市为调査产生的垃圾数量,采用简单
3、随机抽样的方法抽取20个县城进行了分析,得到样本数据(xi,yi)(i1,2,20),其中xi和yi分别表示第i个县城的人口(单位:万人)和该县年垃圾产生总量(单位:吨),并计算得i=120 xi=80,i=120 yi=4000,i=120 (xi-x)280,i=120 (yi-y)28000,i=120 (xi-x)(yi-y)7000(1)请用相关系数说明该组数据中y与x之间的关系可用线性回归模型进行拟合;(2)求y关于x的线性回归方程;(3)某科研机构研发了两款垃圾处理机器,如表是以往两款垃圾处理机器的使用年限(整年)统计表:使用年限台数款式1年2年3年4年5年甲款520151050
4、乙款152010550某环保机构若考虑购买其中一款垃圾处理器,以使用年限的频率估计概率根据以往经验估计,该机构选择购买哪一款垃圾处理机器,才能使用更长久?参考公式:相关系数r=i=1n (xi-x)(yi-y)i=1n (xi-x)i=1n (yi-y)2对于一组具有线性相关关系的数据(xi,yi)(i1,2,n),其回归直线y=bx+a的斜率和截距的最小二乘估计分别为:b=i=1n (xi-x)(yi-y)i=1n (xi-x)2,a=y-bx例6某基地蔬菜大棚采用水培、无土栽培方式种植各类蔬菜据统计该基地的西红柿增加量y(百斤)与使用某种液体肥料x(千克)之间对应数据为如图所示的折线图(1
5、)依据数据的折线图,请计算相关系数r(精确到0.01),并以此判定是否可用线性回归模型拟合y与x的关系?若是请求出回归直线方程,若不是请说明理由;(2)过去50周的资料显示,该地周光照量X(小时)都在30小时以上,其中不足50小时的周数有5周,不低于50小时且不超过70小时的周数有35周,超过70小时的周数有10周蔬菜大棚对光照要求较大,某光照控制仪商家为该基地提供了部分光照控制仪,但每周光照控制仪最多可运行台数受周光照量X限制,并有如表关系:周光照量X(单位:小时)30X5050X70n2光照控制仪最多可运行台数542若某台光照控制仪运行,则该台光照控制仪周利润为3000元;若某台光照控制仪
6、未运行,则该台光照控制仪周亏损1000元若商家安装了5台光照控制仪,求商家在过去50周每周利润的平均值附:对于一组数据(x1,y1),(x2,y2),(xn,yn),其相关系数公式r=i=1n (xi-x)(yi-y)i=1n (xi-x)2i=1n (yi-y)2,回归直线y=bx+a的斜率和截距的最小二乘估计分别为:b=i=1n (xi-x)(yi-y)i=1n (xi-x)2=i=1n xiyi-nxyi=1n (xi-x)2,a=y-bx,参考数据0.30.55,0.90.95例7湖南省从2021年开始将全面推行“3+1+2”的新高考模式,新高考对化学、生物、地理和政治等四门选考科目,
7、制定了计算转换T分(即记入高考总分的分数)的“等级转换赋分规则”(详见附1和附2),具体的转换步骤为:原始分Y等级转换;原始分等级内等比例转换赋分某校的一次年级统考中,政治、生物两选考科目的原始分分布如表:等级ABCDE比例约15%约35%约35%约13%约2%政治学科各等级对应的原始分区间81,9872,8066,7163,6560,62生物学科各等级对应的原始分区间90,10077,8969,7666,6863,65现从政治、生物两学科中分别随机抽取了20个原始分成绩数据,作出茎叶图:(1)根据茎叶图,分别求出政治成绩的中位数和生物成绩的众数;(2)该校的甲同学选考政治学科,其原始分为82
8、分,乙同学选考生物学科,其原始分为91分,根据赋分转换公式,分别求出这两位同学的转化分;(3)根据生物成绩在等级B的6个原始分和对应的6个转化分,得到样本数据(Yi,Ti),请计算生物原始分Yi与生物转换分Ti之间的相关系数,并根据这两个变量的相关系数谈谈你对新高考这种“等级转换赋分法”的看法附1:等级转换的等级人数占比与各等级的转换分赋分区间等级ABCDE原始分从高到低排序的等级人数占比约15%约35%约35%约13%约2%转换分T的赋分区间86,10071,8556,7041,5530,40附2:计算转换分T的等比例转换赋分公式:Y2-YY-Y1=T2-TT-T1(其中:Y1,Y2别表示原
9、始分Y对应等级的原始分区间下限和上限;T1,T2分别表示原始分对应等级的转换分赋分区间下限和上限T的计算结果按四舍五入取整)附3:i=16 (Yi-Y)(Ti-T)74,i=16 (Yi-Y)2i=16 (Ti-T)2=549474.12,r=i=1n (Yi-Y)(Ti-T)i=1n (Yi-Y)2i=1n (Ti-T)2例8某市房管局为了了解该市市民2018年1月至2019年1月期间买二手房情况,首先随机抽样其中200名购房者,并对其购房面积m(单位:平方米,60m130)进行了一次调查统计,制成了如图1所示的频率分布直方图,接着调查了该市2018年1月至2019年1月期间当月在售二手房均
10、价y(单位:万元/平方米),制成了如图2所示的散点图(图中月份代码113分别对应2018年1月至2019年1月)()试估计该市市民的购房面积的中位数m0;()现采用分层抽样的方法从购房面积位于110,130的40位市民中随机抽取4人,再从这4人中随机抽取2人,求这2人的购房面积恰好有一人在120,130的概率;()根据散点图选择y=a+bx和y=c+dlnx两个模型进行拟合,经过数据处理得到两个回归方程,分别为y=0.9369+0.0285x和y=0.9554+0.0306lnx,并得到一些统计量的值如表所示:y=0.9369+0.0285x y=0.9554+0.0306lnx i=113
11、(yi-yi)2 0.0005910.000164i=113 (yi-y)2 0.006050请利用相关指数R2判断哪个模型的拟合效果更好,并用拟合效果更好的模型预测出2019年12月份的二手房购房均价(精确到0.001)【参考数据】ln20.69,ln31.10,ln233.14,ln253.22,2141,31.73,234.80【参考公式】R2=1-i=1n (yi-yi)2i=1n (yi-y)2例9某汽车公司拟对“东方红”款高端汽车发动机进行科技改造,根据市场调研与模拟,得到科技改造投入x(亿元)与科技改造直接收益y(亿元)的数据统计如表:x2346810132122232425y1
12、322314250565868.56867.56666当0x16时,建立了y与x的两个回归模型:模型:y=4.1x+11.8;模型:y=21.3x-14.4;当x16时,确定y与x满足的线性回归方程为:y=-0.7x+a()根据下列表格中的数据,比较当0x16时模型、的相关指数R2,并选择拟合精度更高、更可靠的模型,预测对“东方红”款汽车发动机科技改造的投入为16亿元时的直接收益回归模型模型模型回归方程y=4.1x+11.8 y=21.3x-14.4i=17 (yi-yi)2 182.479.2(附:刻画回归效果的相关指数R21-i=1n (yi-yi)2i=1n (yi-y)2)()为鼓励科
13、技创新,当科技改造的投入不少于20亿元时,国家给予公司补贴收益10亿元,以回归方程为预测依据,比较科技改造投入16元与20亿元时公司实际收益的大小;(附:用最小二乘法求线性回归方程y=bx+a的系数公式b=i=1n xiyi-nxyi=1n xi2-nx2=i=1n (xi-x)(yi-y)i=1n (xi-x)2;a=y-bx)()科技改造后,“东方红”款汽车发动机的热效率X大幅提高,X服从正态分布N(0.52,0.012),公司对科技改造团队的奖励方案如下:若发动机的热效率不超过50%但不超过53%,不予奖励;若发动机的热效率超过50%但不超过53%,每台发动机奖励2万元;若发动机的热效率
14、超过53%,每台发动机奖励4万元求每台发动机获得奖励的数学期望(附:随机变量服从正态分布N(,2),则P(+)0.6827,P(2+2)0.9545)例10某高中数学建模兴趣小组的同学为了研究所在地区男高中生的身高与体重的关系,从若干个高中男学生中抽取了1000个样本,得到如下数据数据一:身高在170,180)(单位:cm)的体重频数统计体重(kg)50,55)55,60)60,65)65,70)70,75)75,80)80,85)85,90)人数206010010080201010数据二:身高所在的区间含样本的个数及部分数据身高x(cm)140,150)150,160)160170)1701
15、80)180190)平均体重y(kg)4553.66075()依据数据一将下面男高中生身高在170180)(单位:cm)体重的频率分布直方图补充完整,并利用频率分布直方图估计身高在170180)(单位:cm)的中学生的平均体重;(保留小数点后一位)()依据数据一、二,计算身高(取值为区间中点)和体重的相关系数约为0.99,能否用线性回归直线来刻画中学生身高与体重的相关关系,请说明理由;若能,求出该回归直线方程;()说明残差平方和或相关指数R2与线性回归模型拟合效果之间关系(只需写出结论,不需要计算)参考公式:b=i=1n (xi-x)(yi-y)i=1n (xi-x)2=i=1n xiyi-n
16、xyi=1n xi2-nx2,a=y-bx参考数据:(1)14545+15553.6+16560+1857538608;(2)1452+1552+1652+1752+1852516521000(3)663175116025,664175116200,665175116375(4)728165120120例112019年的“金九银十”变成“铜九铁十”,国各地房价“跳水”严重,但某地二手房交易却“逆市”而行如图是该地某小区2018年11月至2019年1月间,当月在售二手房均价(单位:万元/平方米)的散点图(图中月份代码113分别对应2018年11月2019年11月)根据散点图选择y=a+bx和yc
17、+dlnx两个模型进行拟合,经过数据处理得到两个回归方程分别为y=0.9369+0.0285x和y=0.9554+0.0306lnx,并得到以下一些统计量的值:y=0.9369+0.0285x y=0.9554+0.0306lnx i=113 (yi-yi)2 0.0005910.000164i=113 (yi-y)2 0.006050(1)请利用相关指数R2判断哪个模型的拟合效果更好;(2)某位购房者拟于2020年4月购买这个小区m(70m160)平方米的二手房(欲购房为其家庭首套房)若购房时该小区所有住房的房产证均已满2但未满5年,请你利用(1)中拟合效果更好的模型解决以下问题:(i)估算
18、该购房者应支付的购房金额;(购房金额房款+税费,房屋均价精确到0.001万元/平方米)(ii)若该购房者拟用不超过100万元的资金购买该小区一套二手房,试估算其可购买的最大面积(精确到1平方米)附注:根据有关规定,二手房交易需要缴纳若干项税费,税费是按房屋的计税价格(计税价格房款)进行征收的房产证满2年但未满5年的征收方式如下:首套面积90平方米以内(含90平方米)为1%;首套面积90平方米以上且140平方米以内(含140平方米)1.5%;首套面积140平方米以上或非首套为3%参考数据:ln20.69,ln31.10,ln172.83,ln192.94,21.41,31.73,174.12,1
19、94.36参考公式:相关指数R2=1-i=1n (yi-yi)2i=1n (yi-y)2例12某新兴科技公司为了确定新研发的产品下一季度的营销计划,需了解月宣传费x(单位:万元)对月销售量y(单位:千件)的影响,收集了2020年3月至2020年8月共6个月的月宣传费x和月销售量y的数据如表:月份345678宣传费x5678910月销售量y0.43.55.27.08.610.7现分别用模型y=bx+a和模型y=emx+n对以上数据进行拟合,得到回归模型,并计算出模型的残差如表:(模型和模型的残差分别为e1和e2,残差实际值预报值)x5678910y0.43.55.37.08.610.7e1 0.
20、60.540.280.120.240.1e2 0.631.712.101.630.75.42(1)根据上表的残差数据,应选择哪个模型来拟合月宣传费x与月销售量y的关系较为合适,简要说明理由;(2)为了优化模型,将(1)中选择的模型残差绝对值最大所对应的一组数据(x,y)剔除,根据剩余的5组数据,求该模型的回归方程,并预测月宣传费为12万元时,该公司的月销售量(剔除数据前的参考数据:x=7.5,y=5.9,i=16 xiyi=299.8,i=16 xi2=355,zlnyz-1.41,i=16 xiyi=-73.10,ln10.72.37,e4.03456.49)参考公式:b=i=1n xiyi
21、-nxyi=1n xi2-nx2,a=y-bx例13新型冠状病毒肺炎COVID19疫情发生以来,在世界各地逐渐蔓延在全国人民的共同努力和各级部门的严格管控下,我国的疫情已经得到了很好的控制然而,小王同学发现,每个国家在疫情发生的初期,由于认识不足和措施不到位,感染人数都会出现快速的增长如表是小王同学记录的某国连续8天每日新型冠状病毒感染确诊的累计人数日期代码x12345678累计确诊人数y481632517197122为了分析该国累计感染人数的变化趋势,小王同学分别用两种模型:y=bx2+a,y=dx+c对变量x和y的关系进行拟合,得到相应的回归方程并进行残差分析,残差图如下(注:残差ei=y
22、i-yi):经过计算得它i=18 (xi-x)(yi-y)=728,i=18 (xi-x)2=42,i=18 (zi-z)(yi-y)=6868,i=18 (zi-z)2=3570,其中zi=xi2,z=18i=18 zi.(1)根据残差图,比较模型,的拟合效果,应该选择哪个模型?并简要说明理由;(2)根据(1)问选定的模型求出相应的回归方程(系数均保留两位小数);(3)由于时差,该国截止第9天新型冠状病毒感染确诊的累计人数尚未公布小王同学认为,如果防疫形势没有得到明显改善,在数据公布之前可以根据他在(2)问求出的回归方程来对感染人数做出预测,那么估计该地区第9天新型冠状病毒感染确诊的累计人数
23、是多少?附:回归直线的斜率和截距的最小二乘估计公式分别为:b=i=18 (xi-x)(yi-y)i=18 (xi-x)2,a=y-bx例14H市某企业坚持以市场需求为导向,合理配置生产资源,不断改革、探索销售模式下表是该企业每月生产的一种核心产品的产量x(吨)与相应的生产总成本y(万元)的五组对照数据产量x(件)12345生产总成本y(万元)3781012()根据上达数据,若用最小二乘法进行线性模拟,试求y关于x的线性回归方程y=bx+a;参考公式:b=i=1n xiyi-nxyi=1n xi2-nx2,a=y-bx()记第()问中所求y与x的线性回归方程y=bx+a为模型,同时该企业科研人员
24、利用计算机根据数据又建立了y与x的回归模型:y=12x2+1其中模型的残差图(残差实际值预报值)如图所示:请完成模型的残差表与残差图,并根据残差图,判断哪一个模型更适宜作为y关于x的回归方程?并说明理由;()根据模型中y与x的线性回归方程,预测产量为6吨时生产总成本为多少万元?例15为了解某企业生产的某产品的年利润与年广告投入的关系,该企业对最近一些相关数据进行了调查统计,得出相关数据见表:年广告投入x(万元)23456年利润y(十万元)346811根据以上数据,研究人员分别借助甲乙两种不同的回归模型,得到两个回归方程,方程甲:方程甲:y(1)=b(x1)2+2.75,方程乙:y(2)=cx1.6(1)求b(结果精确到0.01)与c的值(2)为了评价两种模型的拟合效果,完成以下任务完成下表(备注:ei=yi-yi,ei称为相应于点(xi,yi)的残差;年广告投入x(万元)23456年利润y(十万元)346811模型甲估计值yi(1)残差ei(1)模型乙估计值yi(2)残差ei(2)分别计算模型甲与模型乙的残差平方和Q1及Q2,并通过比较Q1,Q2的大小,判断哪个模型拟合效果更好