1、2.3.2两个变量的线性相关,在一次对人体脂肪含量和年龄关系的研究中, 研究人员获得了一组样本数据:,根据上述数据,人体的脂肪含量与年龄之间有怎样的关系?,散点图:,两个变量的散点图中点的分布的位置是从左下角到右上角的区域,即一个变量值由小变大,另一个变量值也由小变大,我们称这种相关关系为正相关。,思考:1、两个变量成负相关关系时,散点图有什么特点?答:两个变量的散点图中点的分布的位置是从左上角到右下角的区域,即一个变量值由小变大,而另一个变量值由大变小,我们称这种相关关系为负相关。,2、你能举出一些生活中的变量成正相关或者负相关的例子吗?,如学习时间与成绩,负相关如日用眼时间和视力,汽车的重
2、量和汽车每消耗一升汽油所行驶的平均路程等。,注:若两个变量散点图呈上图,则不具有相关关系,如:身高与数学成绩没有相关关系。,散点图,回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线就叫做回归直线。,这条回归直线的方程,简称为回归方程。,1.如果所有的样本点都落在某一函数曲线上,变量之间具有函数关系2.如果所有的样本点都落在某一函数曲线附近,变量之间就有相关关系3.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系只有散点图中的点呈条状集中在某一直线周围的时候,才可以说两个变量之间具有线性关系,才有两个变量的正线性相关和负线性
3、相关的概念,才可以用回归直线来描述两个变量之间的关系,方案一:采用测量的方法:先画一条直线,测量出各点到它的距离,然后移动直线,到达一个使距离之和最小的位置,测量出此时直线的斜率和截距,就得到回归方程。,三、我们应该如何具体的求出这个回归方程呢?,方案二: 在图中选取两点画直线,使得直线两侧的点的个数基本相同。,方案三: 在散点图中多取几组点,确定几条直线的方程,分别求出各条直线的斜率和截距的平均数,将这两个平均数作为回归方程的斜率和截距。,上述三种方案均有一定的道理,但可靠性不强,我们回到回归直线的定义。,求回归方程的关键是如何用数学的方法来刻画“从整体上看,各点与直线的偏差最小”。计算回归
4、方程的斜率和截距的一般公式:,其中,b是回归方程的斜率,a是截距。,5、最小二乘法的公式的探索过程如下:,设已经得到具有线性相关关系的变量的一组数据: (x1,y1),(x2,y2),(xn,yn)设所求的回归直线方程为Y=bx+a,其中a,b是待定的系数。当变量x取x1,x2,xn时,可以得到 Yi=bxi+a(i=1,2,n)它与实际收集得到的yi之间偏差是 yi-Yi=yi-(bxi+a)(i=1,2,n),这样,用这n个偏差的和来刻画“各点与此直线的整体偏差”是比较合适的。,我们可以用计算机来求回归方程。,人体脂肪含量与年龄之间的规律,由此回归直线来反映。,将年龄作为x代入上述回归方程
5、,看看得出数值与真实值之间有何关系?,若某人65岁,可预测他体内脂肪含量在37.1(0.57765-0.448= 37.1)附近的可能性比较大。 但不能说他体内脂肪含量一定是37.1原因:线性回归方程中的截距和斜率都是通过样本估计的,存在随机误差,这种误差可以导致预测结果的偏差,即使截距斜率没有误差,也不可能百分百地保证对应于x,预报值Y能等于实际值y,例2、假设关于某设备的使用年限x(年)和所支出的维修费用y(万元),有如下的统计资料:使用年限x(年) 2 3 4 5 6维修费用y(万元) 2.2 3.8 5.5 6.5 7.0若资料知y,x呈线性相关关系,试求:(1) 线性回归方程Y=bx
6、+a的回归系数a、b;(2) 估计使用年限为10年时,维修费用是多少?,(1)于是有b=(112.3-5*4*5)/(90-5*42)=1.23, a=5-1.23*4=0.08(2)回归方程为Y=1.23x+0.08,当x =10时,Y=12.38 (万元),即估计使用10年时维护费用是12.38万元。,例1:有一个同学家开了一个小卖部,他为了研究气温对热饮销售的影响,经过统计,得到一个卖出的热饮杯数与当天气温的对比表:,1、画出散点图;2、从散点图中发现气温与热饮销售杯数之间关系的一般规律;3、求回归方程;4、如果某天的气温是2摄氏度,预测这天卖出的热饮杯数。,1、散点图,2、从图3-1看到,各点散布在从左上角到由下角的区域里,因此,气温与热饮销售杯数之间成负相关,即气温越高,卖出去的热饮杯数越少。,3、从散点图可以看出,这些点大致分布在一条直线的附近,因此利用公式1求出回归方程的系数。 Y= -2.352x+147.767,4、当x=2时,Y=143.063 因此,某天的气温为2摄氏度时,这天大约可以卖出143杯热饮。,