1、阶段复习课第 三 章,【核心解读】1.两种特殊非线性回归模型的转化(1)将幂型函数y=axm(a为正的常数,x,y取正值)化为线性函数.如果将y=axm两边同取以10为底的对数,则有lgy=mlgx+lga.令u=lgy,v=lgx,lga=b,代入上式,得u=mv+b,其中m,b是常数.这是u,v的线性函数.如果以u为纵坐标,v为横坐标,则u=mv+b的图象就是一直线.,(2)将指数型函数y=cax(a0且a1,c0且为常数)化为线性函数.将y=cax两边同取以10为底的对数,有lgy=xlga+lgc,令lgy=u,lga=k,lgc=b,得u=kx+b,其中,k和b是常数,与幂型函数不同
2、的是x依然保持原来的,只是用y的对数lgy代替了y.,2.残差分析(1)残差:样本值与回归值的差叫残差,即(2)残差图:以残差为纵坐标,以样本编号,或身高数据,或体重的估计值等为横坐标,作出的图形称为残差图.(3)残差平方和:回归值与样本值差的平方和,即(4)R2:对于多个不同的模型,我们还可以引入R2=1-来刻画回归的效果,它表示解释变量对预报变量变化的贡献率.,3.在实际问题中常用的几个数值(1)k6.635表示认为“X与Y有关系”犯错误的概率不超过0.01.(2)k3.841表示认为“X与Y有关系”犯错误的概率不超过0.05.(3)k2.706表示认为“X与Y有关系”犯错误的概率不超过0
3、.1.,主题一线性回归分析【典例1】某城市理论预测2010年到2014年人口总数与年份的关系如表所示(1)请画出上表数据的散点图.(2)请根据上表提供的数据,求出y关于x的线性回归方程(3)据此估计2015年该城市人口总数.,【自主解答】(1)散点图如图:,(2)因为05+17+28+311+419=132,02+12+22+32+42=30,所以所以线性回归方程为 =3.2x+3.6.(3)令x=5,则 =16+3.6=19.6,故估计2015年该城市人口总数为19.6(十万).,【方法技巧】解决回归分析问题的一般步骤(1)画散点图.根据已知数据画出散点图.(2)判断变量的相关性并求回归方程
4、.通过观察散点图,直观感知两个变量是否具有相关关系;在此基础上,利用最小二乘法求回归系数,然后写出回归方程.(3)回归分析.画残差图或计算R2,进行残差分析.(4)实际应用.依据求得的回归方程解决问题.,【补偿训练】(2014东莞高二检测)某地植被面积x(公顷)与当地气温下降的度数y()之间有如下的对应数据:(1)请用最小二乘法求出y关于x的线性回归方程(2)根据(1)中所求线性回归方程,如果植被面积为200公顷,那么下降的气温大约是多少?参考公式:,【解析】(1) =50, =203+404+504+604+805=1060, =202+402+502+602+802=14500.所以 =0
5、.03, =4-0.0350=2.5.故y关于x的线性回归方程为: =0.03x+2.5.(2)由(1)得:当x=200时, =0.03200+2.5=8.5.所以植被面积为200公顷时,下降的气温大约是8.5.,主题二非线性回归分析【典例2】某地区不同身高的未成年男性的体重平均值如表所示:试建立体重y与身高x之间的回归方程.,【自主解答】根据已知表中的数据画出散点图,如图所示.,由图可看出,样本点分布在某条指数型函数y=c1的周围,于是可令z=lny,那么有,作出上表中数据的散点图,如图所示:,由表中数据可得z与x之间的线性回归方程为 =0.693+0.020x,即y与x之间的回归方程为 =
6、e0.693+0.020x.,【方法技巧】非线性回归分析问题的处理技巧一般地,有些非线性回归模型通过变换可以转化为线性回归模型,即借助于线性回归模型研究呈非线性回归关系的两个变量之间的关系.具体步骤如下:(1)描点,选模:画出已知数据的散点图,把它与已经学过的各种函数(幂函数、指数函数、对数函数等)图象作比较,挑选一种跟这些散点拟合得最好的函数.,(2)解模:先对变量进行适当的变换,再利用线性回归模型来解模.(3)比较检验:通过回归分析比较所建模型的优劣.,【补偿训练】寒假中,某同学为组织一次爱心捐款,在网上给网友发了张帖子,并号召网友转发,下表是发帖后一段时间收到帖子的人数统计:(1)作出散
7、点图,并猜测x与y之间的关系.(2)建立x与y的关系,预报回归模型.(3)如果此人打算在帖子传播10天时进行募捐活动,根据上述回归模型,估计可去多少人.,【解题指南】先通过散点图,看二者是否具有线性相关关系,若不具有,可通过相关函数变换,转化为线性相关关系.,【解析】(1)画出散点图如图所示.从散点图可以看出x与y不具有线性相关关系,同时可发现样本点分布在某一个函数曲线y=kemx的周围,其中k,m是参数.,(2)对y=kemx两边取对数,把指数关系变成线性关系.令z=lny,则变换后的样本点分布在直线z=bx+a(a=lnk,b=m)的周围,这样就可以利用线性回归模型来建立x与y之间的非线性
8、回归方程了,数据可以转化为:,求得回归直线方程为 =0.620x+1.133,所以 =e0.620x+1.133.(3)当x=10,此时 =e0.62010+1.1331530(人).所以估计可去1530人.,主题三 独立性检验的思想及方法【典例3】(1)为调查中学生近视情况,测得某校男生150名中有80名近视,女生140名中有70名近视.在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力()A.期望与方差 B.排列与组合C.独立性检验 D.概率,【自主解答】选C.分析已知条件,易得如下表格.根据列联表可得K2,再与临界值比较,检验这些中学生眼睛近视是否与性别有关,故利用独立性检验的
9、方法最有说服力.,(2)(2014石河子高二检测)某学生对其亲属30人的饮食习惯进行了一次调查,并用茎叶图表示30人的饮食指数,如图所示.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主.),根据茎叶图,帮助这位同学说明其亲属30人的饮食习惯.根据以上数据完成如表所示的22列联表.在犯错误的概率不超过0.01的前提下,是否能认为“其亲属的饮食习惯与年龄有关”?,【自主解答】30位亲属中50岁以上的人多以食蔬菜为主,50岁以下的人多以食肉类为主.22列联表如表所示:k= =106.635,故在犯错误的概率不超过0.01的前提下认为“其亲属的饮食习惯与年龄有关
10、”.,【方法技巧】独立性检验问题的求解策略(1)等高条形图法:依据题目信息画出等高条形图,依据频率差异来粗略地判断两个变量的相关性.(2)K2统计量法:通过公式K2=先计算观测值k,再与临界值表作比较,最后得出结论.,【补偿训练】(2014济宁高二检测)2014年山东省第二十三届运动会将在济宁召开,为调查我市某校高中生是否愿意提供志愿者服务,用简单随机抽样方法从该校调查了50人,结果如下:,(1)用分层抽样的方法在愿意提供志愿者服务的学生中抽取6人,其中男生抽取多少人?(2)在(1)中抽取的6人中任选2人,求恰有一名女生的概率.(3)你能否在犯错误的概率不超过0.01的前提下认为该校高中生是否
11、愿意提供志愿者服务与性别有关?,下面的临界值表供参考:独立性检验统计量K2= ,其中n=a+b+c+d.,【解析】(1)由题意,男生抽取 =4(人),女生抽取 =2(人).(2)在(1)中抽取的6人中任选2人,恰有一名女生的概率(3)K2= 8.333,由于8.3336.635,所以能在犯错误的概率不超过0.01的前提下认为该校高中生是否愿意提供志愿者服务与性别有关,【强化训练】1.(2014黑龙江高二检测)在一组样本数据(x1,y1),(x2,y2),(xn,yn)(n2,x1,x2,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,n)都在直线y= x+1上,则这组样本数据
12、的样本相关系数为()A.-1B.0C.D.1,【解析】选D.由题设知,所有样本点(xi,yi)(i=1,2,n)都在直线y= x+1上,所以这组样本数据完全正相关,故其相关系数为1.,2.(2014永州高二检测)已知x,y的值如表所示,若y与x呈线性相关且其回归直线方程为y= x+ ,则a=()A.4B.5C.6D.7,【解析】选A.由题意可得 ,由于回归直线 过点故 解得a=4.,3.(2014大庆高二检测)以下五个命题从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;样本方差反映了样本数据与样本平均值的偏离程度;在回归分析模型中,残差平方
13、和越小,说明模型的拟合效果越好;在回归直线方程 =0.1x+10中,当解释变量x每增加一个单位时,预报变量增加0.1个单位;,在一个22列联表中,由计算得K2=13.079,则其两个变量间有关系的可能性是90%以上.其中正确的是()A. B.C. D.,【解题指南】的抽样不是分层抽样,而是系统抽样,故不正确,由此可知B,C两个答案一定不对,只有A,D两个可选,只要观察这两个答案的不同之处,判断第个是否正确,是正确的,得到结果.,【解析】选A.从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样不是分层抽样,而是系统抽样,故不正确,所以B,C两个答案一定不对
14、,只有A,D两个可选,观察这两个答案的不同之处,只要判断第个是否正确,在回归分析模型中,残差平方和越小,说明模型的拟合效果越好,这个说法是正确的,故正确,故选A.,4.根据两个变量x,y之间的观测数据画成散点图如图所示,这两个变量线性相关关系.(填“具有”或“不具有”),【解析】从散点图看,散点图的分布成团状,无任何规律,所以两个变量不具有线性相关关系.答案:不具有,5.(2014邢台高二检测)某连锁经营公司所属5个零售店某月的销售额和利润额资料如下表(1)画出销售额和利润额的散点图.(2)用最小二乘法计算利润额y对销售额x的回归直线方程.(3)对计算结果进行简要的分析说明.,【解析】(1)根
15、据所给的五组数据,得到五个有序数对,在平面直角坐标系中画出点,得到散点图.,所以线性回归方程是 =0.5x+0.4.(3)利润额y对销售额x符合线性相关关系,y随着x的增大而增大,即销售额越大利润就越大.,6.某电脑公司有6名产品推销员,其中5名的工作年限与年推销金额数据如下表:(1)求年推销金额y关于工作年限x的线性回归方程.(2)若第6名推销员的工作年限为11年,试估计他的年推销金额.,【解析】(1)设所求的线性回归方程为则所以年推销金额y关于工作年限x的线性回归方程为 =0.5x+0.4.(2)当x=11时, =0.5x+0.4=0.511+0.4=5.9(万元).所以可以估计第6名推销
16、员的年推销金额为5.9万元.,7.(2014长冶高二检测)为了调查某大学学生在周日上网的时间,随机对100名男生和100名女生进行了不记名的问卷调查,得到了如下的统计结果:表1:男生上网时间与频数分布表,表2:女生上网时间与频数分布表(1)若该大学共有女生750人,试估计其中上网时间不少于60分钟的人数.(2)完成表3的22列联表,并回答能否在犯错误的概率不超过0.1的前提下认为“学生周日上网时间与性别有关”?,(3)从表3的男生中“上网时间少于60分钟”和“上网时间不少于60分钟”的人数中用分层抽样的方法抽取一个容量为5的样本,再从中任取两人,求至少有一人上网时间超过60分钟的概率.表3:,
17、附:K2= ,其中n=a+b+c+d.,【解析】(1)设估计上网时间不少于60分钟的人数x,依据题意有 ,解得:x=225,所以估计其中上网时间不少于60分钟的人数是225人.(2)根据题目所给数据得到如下列联表:其中K2= 2.1982.706.,因此,不能在犯错误的概率不超过0.1的前提下认为“学生周日上网时间与性别有关”.(3)因为上网时间少于60分钟与上网时间不少于60分钟的人数之比为32,所以5人中上网时间少于60分钟的有3人,记为A,B,C,上网时间不少于60分钟的有2人,记为D,E,从中任取两人的所有基本事件为:(AB),(AC),(AD),(AE),(BC),(BD),(BE),(CD),(CE),(DE),共10种.其中“至少有一人上网时间超过60分钟”,包含了7种,所以P= .,