1、勤学好问必有所获,第八章 随机变量(向量)的数字特征,概率论,回归分析的基本概念,一元回归模型的建立与检验,一元回归模型的的预测,在现实问题中,处于同一个过程中的一些变量,往往是相互依赖和相互制约的,它们之间的相互关系大致可分为两种:,相关关系问题,(1)确定性关系函数关系;,(2)非确定性关系相关关系;,相关关系表现为这些变量之间有一定的依赖关,但这种关系并不完全确定,它们之间的关系不能精确地用函数表示出来,这些变量其实是随机变量,或至少有一个是随机变量。,类似的变量间的关系在大自然和社会中屡见不鲜.,例如,小麦的穗长与穗重的关系;某班学生最后一次考试分数与第一次考试分数的关系;温度、降雨量
2、与农作物产量间的关系;人的年龄与血压的关系;最大积雪深度与灌溉面积间的关系;家庭收入与支出的关系等等.,相关关系,影响,的值,不能确定。,函数关系,决定,的值,,因此,统计学上讨论两变量的相关关系时,是设法 确定:在给定自变量 的条件下,因变量 的 条件数学期望,回归分析的概念,研究一个随机变量与一个(或几个)可控变量之间 的相关关系的统计方法称为回归分析。,只有一个自变量的回归分析称为一元回归分析;多 于一个自变量的回归分析称为多元回归分析。,引进回归函数,称为回归方程,在这一讲里, 我们主要讨论的是一元线性回归. 它是处理两个变量之间关系的最简单的模型. 它虽然比较简单, 但我们从中可以了
3、解到回归分析的基本思想、方法和应用.,一元线性回归,一元线性回归,一元线性回归,为了估计山上积雪融化后对下游灌溉的影响, 在山上建立了一个观测站, 测量了最大积雪深度x与当年灌溉面积 y, 得到连续10年的数据如下表:,让我们用一个例子来说明如何建立一元线性回归方程.,年序 最大积雪深度x(米) 灌溉面积y(公顷)1 5.1 1907 2 3.5 1287 3 7.1 2693 4 6.2 23735 8.8 3260 6 7.8 3000 7 4.5 19478 5.6 22739 8.0 311310 6.4 2493,为了研究这些数据中所蕴含的规律性, 我们由10对数据作出散点图.,从图
4、看到, 数据点大致落在一条直线附近, 这告诉我们变量x和y之间大致可看作线性关系.,从图中还看到, 这些点又不完全在一条直线上, 这表明x和y的关系并没有确切到给定x就可以唯一确定y的程度.,事实上, 还有许多其它因素对y产生影响,如当年的平均气温、当年的降雨量等等, 都是影响y取什么值的随机因素.,一元线性回归模型,如果试验的散点图中各点呈直线状,则假设这批数 据的数学模型为,设随机变量Y依赖于自变量x,作n次独立试验,得n对观测值: 称这n对观测值为容量为n的一个子样,若把这n对观测值在平面直角坐标系中描点,得到试验的散点图.,则,因此,其中 是与 无关的未知常数。,(9.1),一元线性回
5、归模型,一般地,称如下数学模型为一元线性模型,而 称为回归函数或回归方程。,称为回归系数。,回归函数(方程)的建立,由观测值 确定的回归函数 ,应使得 较小。,考虑函数,问题:确定 ,使得 取得极小值。,这是一个二元函数的无条件极值问题。,回归方程的建立,令,回归方程的建立,记,表示对 的估计值,则变量 对 的回归方程为,最小二乘法,回归方程有效性的检验,对于任何一组数据 ,都可按最 小二乘法确定一个线性函数,但变量 与 之间是否真 有近似于线性函数的相关关系呢?尚需进行假设检验。,假设,如果 成立,则不能认为 与 有线性相关关系。,三种检验方法:F检验法、t-检验法、r检验法。,回归方程有效
6、性的F检验法,记,总离差平方和,反映观测值与平均值的偏差程度。,经恒等变形,将 分解,回归平方和,反映回归值与平均值的偏差,揭示 变量 与 的线性关系所引起的数据波动。,剩余平方和,反映观测值与回归值的偏差,揭示 试验误差和非线性关系对试验结果所引起的数据波动。,如果 为真,则,于是,统计量,对给定的检验水平 ,,(1)当 时,拒绝 ,即可认为变量 与 有线性相关关系;,(2)当 时,接受 ,即可认为变量 与 没有线性相关关系;,(2)当 时,接受 ,即可认为变量 与 没有线性相关关系;,此时,可能有以下几种情况:,(2) 对 有显著影响,但这种影响不能用线性关系 表示,应作非线性回归;,(3
7、)除 之外,还有其它变量对 也有显著影响,从 而削弱了 对 的影响,应考虑多元回归。,(1) 对 没有显著影响,应丢弃自变量 ;,回归方程有效性的r检验法,记,样本的相关系数,可反映变量 与 之间的线性相关程度。,因为,回归方程有效性的r检验法,记,样本的相关系数,越大,变量 与 之间的线性相关程度越强。,因为,(1),(2) 时,,(3) 时,,与 有线性相关关系;,与 无线性相关关系;,计算,对给定的检验水平 ,查相关系数的临界值表,如果 ,则拒绝 ,即线性回归方程有效; 否则,接受 ,即线性回归方程无效。,F检验与r检验是一致的:,回归方程有效性的t检验法,统计量,H0成立时,,对给定的
8、检验水平 ,H0的拒绝域为,即当 时,变量 与 有线性相关关系。,F检验与t检验是一致的:,试求出 与 的关系,并判断是否有效。,例1 为了研究大豆脂肪含量 和蛋白质含量 的关系, 测定了九种大豆品种籽粒内的脂肪含量和蛋白质含量, 得到如下数据,解 (1)描散点图,(2)建立模型,由散点图,设变量 与 为线性相关关系:,确定回归系数 和 :,所以,所求的回归方程为,(3)检验回归方程的有效性,查相关系数临界值表,因为,所以回归方程在 的检验水平下有统计意义。,即可以认为大豆的蛋白质含量与脂肪含量有线性相关性。,利用回归方程进行预测,1、点预测,时, 即为 的点预测值。,2、区间预测,统计量,对给定的置信水平 , 的预测区间为,续例1 求大豆脂肪含量为18.6%的条件下蛋白质 95%的预测区间。,解 由已求得的回归方程,得蛋白质的点预测值为,所以脂肪含量为18.6%时,蛋白质的95%的预测区间为,利用回归方程进行预测,控制则为预测的反问题:已知因变量的取值区间为,,确定自变量的取值区间 使得,利用回归方程进行控制,一般地,要解出 和 很复杂,可作简化求解:,当样本容量很大时,,,则,