1、1,第1章 一元线性回归模型,1.1 变量间关系的度量 1.2 一元线性回归模型 1.3 回归系数的区间估计 1.4 预测和控制,2,1.1 变量间关系的度量, 一元线性回归是描述两个变量之间统计关系(相关关系)的最简单的回归模型,1. 变量间关系不能用函数关系精确表达 2. 一个变量的取值不能由另一个变量唯一确定 3. 当变量 x 取某个值时,变量 y 的取值可能有几个 4. 各观测点分布在直线周围,3,【例1】 假定一保险公司希望确定居民住宅区 火灾造成的损失数据与该住户到最近的消防站 的距离之间的相关关系,以便准确地定出保险 金额。X(km)表示距消防站距离, y(千元)表示 火灾损失,
2、SPSS: Graphs Scatter,4,Excel: 工具 数据分析 回归,5,从这个例子可以看到,样本数据点大致都分别落在一条直线附近。说明变量x与y之间具有明显的线性关系,但x与y的关系并没有确切到给定x就可以唯一确定y的程度。把每个样本点与直线的偏差看做是其他随机因素的影响。,6,这种相关关系可以表示为:,这便是 关于 的一元线性回归的数据结构式。,7,相关关系 (类型),8,相关系数 (取值及其意义),r,9,1.2 一元线性回归,1.2.1 一元线性回归模型 1.2.2 参数的最小二乘估计 1.2.3 回归直线的拟合优度 1.2.4 显著性检验,10,回归模型的类型,11,一元
3、线性回归,涉及一个自变量的回归 因变量y与自变量x之间为线性关系 被预测或被解释的变量称为因变量(dependent variable),用y表示 用来预测或用来解释因变量的一个或多个变量称为自变量(independent variable),用x表示 因变量与自变量之间的关系用一个线性方程来表示,12,一元线性回归模型,描述因变量 y 如何依赖于自变量 x 和误差项 的方程称为回归模型 一元线性回归模型可表示为y = b0 + b1 x + e (1.1) y 是 x 的线性函数(部分)加上误差项 线性部分反映了由于 x 的变化而引起的 y 的变化 误差项 是随机变量 反映了除 x 和 y
4、之间的线性关系之外的随机因素对 y 的影响 是不能由 x 和 y 之间的线性关系所解释的变异性 0 和 1 称为模型的参数,13,一元线性回归模型 (基本假定),误差项是一个期望值 ,方差为的随机变量。对于一个给定的x 值,y 的期望值为E ( y ) = 0+ 1 x 2. 对于所有的 x 值,的方差 都相同 3. 误差项是一个服从正态分布的随机变量,且相互独立。即 独立性意味着对于一个特定的 x 值,它所对应的与其他 x 值所对应的不相关 对于一个特定的 x 值,它所对应的 y 值与其他 x 所对应的 y 值也不相关,14,回归方程 (regression equation),描述 y 的
5、平均值或期望值如何依赖于 x 的方程称为回归方程 一元线性回归方程的形式如下E( y ) = 0+ 1 x,方程的图示是一条直线,也称为直线回归方程 0是回归直线在 y 轴上的截距,是当 x=0 时 y 的期望值, 称为回归常数 1是直线的斜率,称为回归系数,表示当 x 每变动一个单位时,y 的平均变动值,15,有n组样本观测值 , 如果它们符合模型(1.1)式,则,且有,(1.1)式的理论模型与(1.2)的样本回归模型是等价 的;对(1.2)式两边求数学期望和方差,得,(1.2),(1.3),样本回归方程,(1.3)式表明随机变量 是期望不等,方差 相等的独立但不同分布的随机变量,即,16,
6、用矩阵表示回归模型,于是模型(1.2)式表示为,(1.4),17,估计的回归方程 (estimated regression equation),一元线性回归中估计的回归方程为,用样本统计量 和 代替回归方程中的未知参数 和 ,就得到了估计的回归方程(经验回归),总体回归参数 和 是未知的,必须利用样本数据去估计,其中: 是估计的回归直线在 y 轴上的截距, 是直线的斜率,它表示对于一个给定的 x 的值, 是 y 的估计值,也表示 x 每变动一个单位时, y 的平均变动值,18,参数的最小二乘估计,使因变量的观察值与估计值之间的离差平方和达到最小来求得 和 的方法。即,用最小二乘法拟合的直线来
7、代表x与y之间的关系与实际数据的误差比其他任何直线都小,19,称,为,的回归拟,合值;称,为,的残差。,残差平方和,反映了全部观测值 对直线的 偏离程度。显然,残差平方和越小,愈能 较好地表示 之间的关系,20,最小二乘估计(图示),21,用最小二乘法原理,通过选择合适的系数 , 使Q最小,最小二乘估计,(1.5),22,联合求解得,其中,最小二乘法 ( 和 的计算公式),23,24,在 的估计式中 ,记,则回归方程为,25,用Excel进行回归分析,第1步:选择“工具”下拉菜单 第2步:选择“数据分析”选项 第3步:在分析工具中选择“回归”,然后选择“确定” 第4步:当对话框出现时 在“Y值
8、输入区域”设置框内键入Y的数据区域在“X值输入区域”设置框内键入X的数据区域在“置信度”选项中给出所需的数值在“输出选项”中选择输出区域在“残差”分析选项中选择所需的选项用Excel进行回归分析,26,回归直线的拟合优度,27,变 差,1. 因变量 y 的取值是不同的,y 取值的这种波动称为变差。变差来源于两个方面 由于自变量 x 的取值不同造成的 除 x 以外的其他因素(如x对y的非线性影响、测量误差等)的影响 2. 对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差 来表示,28,变差的分解 (图示),x,y,29,离差平方和的分解 (三个平方和的关系),30,离差平方和的
9、分解 (三个平方和的意义),1. 总平方和(SST) 反映因变量的 n 个观察值与其均值的总离差 2. 回归平方和(SSR) 反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和 3. 残差平方和(SSE) 反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和,31,判定系数r2 (coefficient of determination),回归平方和占总离差平方和的比例,反映回归直线的拟合程度 取值范围在 0 , 1 之间R2 1,说明回归方程拟合的越好;R20,说明回归方程拟合
10、的越差 判定系数等于相关系数的平方,即R2 (r)2,32,散点图 (例题分析),【例】一家大型商业银行在多个地区设有分行,其 业务主要是进行基础设施建设、国家重点项目建设 固定资产投资等项目的贷款。近年来,该银行的贷 款额平稳增长,但不良贷款额也有较大比例的增 长,这给银行业务的发展带来较大压力。为弄清楚 不良贷款形成的原因,希望利用银行业务的有关数 据做些定量分析,以便找出控制不良贷款的办法。 下面是该银行所属的25家分行2002年的有关业务 数据,33,散点图(例题分析),34,判定系数r2 (例题分析),【例】计算不良贷款对贷款余额回归的判定系数,并解释其意义 判定系数的实际意义是:在
11、不良贷款取值的变差中,有71.16%可以由不良贷款与贷款余额之间的线性关系来解释,或者说,在不良贷款取值的变动中,有71.16%是由贷款余额所决定的。也就是说,不良贷款取值的差异有2/3以上是由贷款余额决定的。可见不良贷款与贷款余额之间有较强的线性关系。,35,显著性检验,36,线性关系的检验(F检验),1. 检验自变量与因变量之间的线性关系是否显著(直接从回归效果检验回归方程的显著性) 2. 将回归均方(MSR)同残差均方(MSE)加以比较,应用F检验来分析二者之间的差别是否显著 回归均方:回归平方和SSR除以相应的自由度(自变量的个数p) 残差均方:残差平方和SSE除以相应的自由度(n-p
12、-1),37,什么是自由度,模型中样本值可以自由变动的个数,称为自由度。 自由度 = 样本个数 样本数据受约束条件(方程)的个数 例如,样本数据个数为n,它们受k个方程的约束(系数矩阵秩为k),那么,自由度df = n-k,38,SST、SSR、SSE的自由度,39,对应于平方和分解的自由度的分解,SST = SSR + SSEn-1 1 n-2总自由度dfT 回归自由度dfR 残差自由度dfE自由度分解:dfT= dfR +dfE,40,线性关系的检验 (检验的步骤),提出假设 H0:1=0 线性关系不显著,2. 计算检验统计量F,确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界
13、值 作出决策:若 ,拒绝H0;若 ,不能拒绝H0,41,线性关系的检验 (例题分析),1. 提出假设 H0: 1=0 不良贷款与贷款余额之间的线性关系不显著 2. 计算检验统计量F,3. 确定显著性水平=0.05,并根据分子自由度1和分母自由度25-2找出临界值 4. 作出决策:若 , 拒绝H0 ,线性关系显著,42,线性关系的检验 (方差分析表),Excel 输出的方差分析表,43,回归系数的检验(t检验),3.在一元线性回归中,等价于线性关系的 显著性检验,检验 x 与 y 之间是否具有线性关系,或者说,检验自变量 x 对因变量 y 的影响是否显著,理论基础是回归系数 的抽样分布,44,回
14、归系数的检验 (样本统计量 的分布),是根据最小二乘法求出的样本统计量,它有自己的分布的分布具有如下性质 分布形式:正态分布 数学期望:标准差:由于 未知,需用其估计量 来代替得到 的估计的标准差,45,回归系数的检验 (检验步骤),提出假设 H0: b1 = 0 (没有线性关系) H1: b1 0 (有线性关系) 计算检验的统计量,确定显著性水平,并进行决策 ,拒绝H0; ,不能拒绝H0,46,用统计软件计算 (回归系数的检验),47,例题分析(P33的结果),Excel 工具 数据分析项,48,查t分布表得 ,,,应拒绝原假设,检验统计量t值与p值的关系:,故P值越小,| t值|越大; P
15、值越大,| t值|越小。 当P值 时, ,此时拒绝原假设; 当P值 时, ,此时接受原假设; 因而可以用P值代替t值作判定。,49,将Excel数据文件粘贴到SPSS中,再加入变量名。依次点选: Analyze Regression Linear,输出结果,(P35的结果),50,51,回归系数的检验 (例题分析),对例题的回归系数进行显著性检验(0.05) 1. 提出假设 H0:b1 = 0 H1:b1 0 2. 计算检验的统计量,3. t=7.533515 ,拒绝H0,表明不良贷款与贷款余额之间有线性关系,52,回归系数的检验 (例题分析),P 值的应用,P=0.000000=0.05,拒
16、绝原假设,不良贷款与贷 款余额之间有线性关系,53,1.3 利用回归方程进行估计和预测,1. 根据自变量 x 的取值估计或预测因变量 y的取值 2. 估计或预测的类型 点估计 y 的平均值的点估计 y 的个别值的点估计 区间估计 y 的平均值的置信区间估计 y 的个别值的预测区间估计,54,点估计,2. 点估计值有 y 的平均值的点估计 y 的个别值的点估计 在点估计条件下,平均值的点估计和个别值的的点估计是一样的,但在区间估计中则不同,对于自变量 x 的一个给定值x0 ,根据回归方程得到因变量 y 的一个估计值,55,y 的平均值的点估计, 利用估计的回归方程,对于自变量 x 的一个给定值
17、x0 ,求出因变量 y 的平均值的一个估计值E(y0) ,就是平均值的点估计 在前面的例子中,假如我们要估计贷款余额为100亿元时,所有分行不良贷款的平均值,就是平均值的点估计 。根据估计的回归方程得,56,y 的个别值的点估计,利用估计的回归方程,对于自变量 x 的 一个给定值 x0 ,求出因变量 y 的一个个别值的估计值 ,就是个别值的点估计 例如,如果我们只是想知道贷款余额为72.8亿元的那个分行(这里是编号为10的那个分行)的不良贷款是多少,则属于个别值的点估计 。根据估计的回归方程得,57,区间估计,58,区间估计,1. 点估计不能给出估计的精度,点估计值与实际值之间是有误差的,因此
18、需要进行区间估计 2. 对于自变量 x 的一个给定值 x0,根据回归方程得到因变量 y 的一个估计区间 3. 区间估计有两种类型 预测区间估计(prediction interval estimate) 置信区间估计(confidence interval estimate),59,预测区间估计(因变量新值的区间预测),1. 利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计区间,这一区间称为预测区间(prediction interval) 2. y0在1-置信水平下的预测区间为,60,推导思路:为了给出个别值 的置信区间, 需要先求出其估计值 的分
19、布。,由于,从而,61,其中 为新值 的杠杆值;,又由于 是先前独立观测到的随机变量 的线性组合,所以 与 是独立的;故,进一步得到:,最后可知枢轴量:,62,说明:为了提高预测精度,n应越大越好,采 集数据 不能太集中。,63,预测区间估计(例题分析),【例】求出贷款余额为100亿元时,不良贷款的置信度为95%的置信区间。解:根据前面的计算结果,已知 n=25, sy=1.9799,t(25-2)=2.0687置信区间为,贷款余额为72.8亿元的那个分行,其不良贷款的预测区间在-2.2467亿元到6.1067亿元之间,64,置信区间估计(因变量新值的平均值的区间估计),1. 利用估计的回归方
20、程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值的估计区间 ,这一估计区间称为置信区间(confidence interval) 2. E(y0) 在1-置信水平下的置信区间为,式中:sy为估计标准误差,65,置信区间估计 (例题分析),【例】求出贷款余额为100亿元时,不良贷款的置信度为95%的置信区间解:根据前面的计算结果,已知n=25, 置信区间为,当贷款余额为100亿元时,不良贷款的平均值在2.1422亿元到3.7778亿元之间,66,用SPSS计算火灾损失数据点估计值 以及置信度为 95的因变量平均值 的置信区间和因变量新值的置信区间( 公里)。 点估计值 :27.50(千元) 单个新值 :(22.32,32.67) 平均值 : (26.19,28.80),注意:计算回归前,先把自变量新值 输入样本数 据中,而因变量的相应值空缺。,