1、第10章 回归分析,10.1 一元线性回归,一、回归的概念,1885年F.Galton(高尔登)选取了大量的豌豆种子,将 它们分成7个不同的重量组,然后说服住在各地的朋 友按照一致的指示种70颗种子,每一重量组种10颗, 连种两代,结果如下表,注意到:,小个子豌豆的下一代没有上一代那么小,而大个子豌豆的下一代比上一代要小一些,F.Galton称这一现象为回复变异,他说:,回复变异是理想平均子型(下一代)与父型(上一代) 有差异的趋势使回复到可以粗糙地也许正确地称之 平均祖先型,这就是回归现象,人类的身高也是如此,二、一元线性回归模型,一元线性回归方程为,一元线性回归模型为,三、样本线性回归方程
2、的建立,1.散点图,例1.考察某种纤维的强度与其拉伸倍数的关系,下表是 实际测定的24个纤维样品的强度与相应的拉伸倍数的 记录:,纤维强度随拉伸 倍数增加而增加,并且24个点大致分 布在一条直线附近,即,事实上,用最小二乘法可以得到线性回归方程,2.最小二乘法,但几乎不可能,从而得到回归方程的估计,上式称为样本回归方程,其图象称为样本回归直线,为此引入以下概念:,残差:,残差平方和SSE,描述样本回归直线与所有样本点的拟合程度,残差平方和越小,拟合得就越好,令偏导数为零,得,加,记,由此可得样本回归方程为,以上求样本回归方程的的方法称为最小二乘法,例1.考察某种纤维的强度与其拉伸倍数的关系,下
3、表是 实际测定的24个纤维样品的强度与相应的拉伸倍数的 记录:数据P7.建立强度与拉伸倍数的线性回归方程.,解:,根据强度与拉伸倍数的样本数据,可得,强度与拉伸倍数的样本线性回归方程为,四、线性回归方程的线性相关关系的显著性检验,残差平方和,回归平方和,构造统计量,总离差平方和,原假设的拒绝域为,例2 对例1中的样本回归方程进行显著性检验,解,由例1可知,统计量观测值为,即认为纤维强度y与拉伸倍数x间存在线性相关关系,回归效果显著,查表得临界值,2. 相关系数检验,定义比值,为样本相关系数,对于假设,其拒绝域为,即认为纤维强度y与拉伸倍数x间存在线性相关关系,线性回归方程有效,例3 对例1中的样本回归方程进行相关系数检验,解,样本相关系数为,由例1可知,查表的相关系数临界值,五、预测,样本线性回归方程为,其中,则,例4. 预测例1中,解,由例1可知样本线性回归方程为,因此拉伸倍数为4时,纤维强度的0.95-置信区间为,作业,3.,P268 练习10.2,