1、变量间的相关性知识导学一、课标要求1通过收集现实问题中两个有关联变量的数据作出散点图,并利用散点图直观认识变量间的相关关系;2经历用不同估算方法描述两个变量线性相关的过程,知道最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程。二、要点清点(一)变量间的相关关系1变量间的相关关系变量与变量之间的关系常见的有两类:一类是确定性的函数关系;另一类是变量间确实存在关系,但又不具备函数关系所要求的确定性,它们的关系是带有随机性的,此时我们称两个变量具有相关关系。注:相关关系与函数关系的异同点:(1)相同点:两者均是指两个变量的关系。(2)不同点:函数关系是一种确定的关系;相关关系是一种
2、非确定的关系。函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系。2散点图把两个变量作为横、纵坐标,在平面直角坐标系中描点作出两个变量的对应点,这样的图形叫做散点图。注:散点图中变量的对应点如果分布在某条直线的周围,我们就可以得出结论:这两个变量具有相关关系;如果变量的对应点分布没有规律,我们就可以得出结论:这两个变量不具有相关关系。3正相关、负相关具有相关关系的两个变量,如果一个变量的值由小变大时,另一个变量的值也由小变大,这种相关称为正相关;反之,如果一个变量的值由小变大时,另一个变量的值由大变小,这种相关称为负相关。(二)两个变量的线性相关1线性相关、回归直线如果散点图
3、中,相应于具有相关关系的两个变量所有观察值的数据点,分布在一条直线附近,我们就称这两个变量之间具有线性相关关系,这样的直线可以画出许多条,其中“最贴近”这些数据点的一条,我们称之为回归直线。2用最小二乘法求回归直线方程。记回归直线方程为 yabx, , 叫做回归系数。利用最小二乘法可以求得回归系数:1122()nni iiii iixyxyb, aybx。其中 1nix, 1niy。注:(1)我们知道,回归直线是数据点最贴近的直线,反映贴近程度的数据是离差的平方和,即总离差 21niiiQyabx,这样,回归直线就是所有直线中 Q取最小值的那一条,这种使“离差平方和为最小”的方法,叫做最小二乘
4、法。(2)利用最小二乘法求回归系数 , 时,是将离差的平方和 转化为关于 a或 b的二次函数,利用二次函数知识求得的。3求回归直线方程的步骤(1)作出给出数据的散点图,并直观地判断是否是线性相关的;(2)求出 x, y;(3)求出 2i, i;(4)求出 a和 b,写出回归直线方程。4回归直线方程的应用(1)描述两变量之间的依存关系:利用回归直线方程即可定量描述两个变量间依存的数量关系;(2)利用回归方程进行预测:把预报因子(即自变量 x)代入回归方程对预报量(即因变量 y)进行估计,即可得到个体 y值的容许区间。(3)利用回归方程进行统计控制规定 值的变化,通过控制 的范围来实现统计控制的目
5、标。如已经得到了空气中 2NO的浓度和汽车流量间的回归方程,即可通过控制汽车流量来控制空气中 2NO的浓度。5利用散点图和回归直线方程的注意事项(1)做回归分析要有实际意义;(2)回归分析前,最好先作出散点图,以判断是否是线性相关关系;(3)回归直线不要外延。三、范例剖析例 1 下列两个变量之间的关系不具有线性关系的是( )A小麦产量与施肥值B球的体积与表面积C蛋鸭产蛋个数与饲养天数D甘蔗的含糖量与生长期的日照天数分析:设球的半径为 r,则球的体积为 34Vr,球的表面积 24Sr,显然这两者不是线性关系。解析: B评注:线性关系是一种函数关系,因此具有确定性。本题中的 B两者之间有相关关系,
6、但不具有线性关系。例 2 要分析学生初中升学的数学成绩对高一学习情况的影响,在高一年级学生中随机抽取了 10 名学生,他们的入学成绩与期末考试成绩如下表:学生编号 1 2 3 4 5 6 7 8 9 10入学成绩 x63 67 45 88 81 71 52 99 58 76期末成绩 y65 78 52 82 92 89 73 98 56 75(1)若变量 与 之间具有线性相关关系,求出回归直线方程;(2)若某学生的入学成绩为 80 分,试估计他的期末成绩。解析:(1) 16374581752987600x,582936y 。 120.765niixyb, 2.4108aybx,所求线性回归直线
7、方程为 2.4108.765yx。(2)某学生的入学成绩为 80 分,代入上式可求得 84y,即这个学生期末成绩的预测值为 84 分。评注:知道 x与 y呈线性相关关系,无须进行相关性检验。否则,应首先进行相关性检验,如果本身两个变量不具备相关关系,或者说,它们之间相关关系不显著,即使求出回归直线方程也是毫无意义的,而且用其估计和预测的量也是不可信的。例 3 下表是我国居民生活污水排放量的一组数据:年份 1995 1996 1997 1998 1999 2000 2001 2002排放量 151 189.1 194.8 203.8 220.9 227.7 232.3试估计 1996 年我国居民
8、生活污水的排放量,并预测 2004 年生活污水的排放量(单位:810t) 。分析:要估计或预测,可考虑先求回归直线方程,将年份与污水的排放量的相关关系表达出来,可先剔除 1996 年,样本容量为 7。解析:设 1995 年为第 1 年,2002 年为第 8 年,列表,用科学计算器进行有关计算:i1 2 3 4 5 6 7ix1 3 4 5 6 7 8iy151 189.1 194.8 203.8 220.9 227.7 232.3ix151 567.9.21019 132.4593.1.44.857x, 0.8y7210ix,72196.i,71294.ixy71 22794857050iiy
9、bx,0.81.1.ay。所求回归直线方程为 4572yx,从而当 2x时, 170.y;当 9x时,250.y。1996 年污水排放量估计为 8170.t,2004 年污水排放量估计为 8250.1t。评注:灵活选取数据可以简化运算,当只要求分析两变量相关关系用其解决实际问题时,可选取恰当的变量进行分析。例 3 以下是某地搜集到的新房屋的销售价格 y和房屋的面积 x的数据:房屋面积 2m115 110 80 135 105销售价格(万元) 24.8 21.618.4 29.2 22(1)画出数据对应的散点图;(2)求线性回归方程,并在散点图中加上回归直线;(3)据(2)的结果估计当房屋面积为
10、 150 2m时的销售价格。分析:将表中各对数据在平面直角坐标系中描点,便得到具有相关关系的两个变量的一组数据的图形,即得散点图;按照求回归直线方程的步骤和公式,写出回归直线方程。解析:(1)数据对应的散点图如下图所示:(2)5109ix, 521570iix, 23.y,513.iiiy。设所求回归直线方程为 bxa,则51231.098257iiiiixyb,.96ayx。故所求回归直线方程为 01829yx。(3)当 x=150 2m时,销售价格的估计值为 0.1825.96231.y(万元) 。评注:研究变量间的相关关系,求得回归直线方程,能帮助我们发现事物发展的一些规律,补充积累资料的不足,估计预测某些数据,为我们的判断和决策提供依据。