1、Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc.,Chap 12-1,第12章一元线性回归,商务统计学(第5版),Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-2,学习目标,在本章中你将学到: 如何利用一元线性回归分析理论,由自变量来预测因变量 回归系数 b0 和 b1的含义 如何评价一元线性回归分析的假设条件,并且了解假设违背时的处理方法 斜率和相关系数的推断 均值估计和个值预测,Business Statistic
2、s: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-3,相关与回归,一个 散点图 可以用来表示两个变量之间的关系 相关性 分析是用来测量两个变量之间的关联(线性关系)强度 相关性仅仅是关心关联的强度 没有因果关系是隐含相关性 散点图首次出现在第2章 相关性首次出现在第3章,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-4,回归分析简介,回归分析被应用于: 基于至少一个自变量的值,预测因变量的值 解释一个自变量的变化对因变量的影响 因变量: 我
3、们要预测或解释的变量自变量: 用来预测或解释因变量的变量,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-5,一元线性回归模型,只有一个自变量X X与Y的关系可以通过线性函数表示 假定Y的变化与X的变化有关,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-6,相关类型,Y,X,Y,X,Y,Y,X,X,线性相关,曲线相关,Business Statistics: A First Course, 5e 200
4、9 Prentice-Hall, Inc,Chap 12-7,关系类型,Y,X,Y,X,Y,Y,X,X,强相关,弱相关,(续),Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-8,相关类型,Y,X,Y,X,不相关,(续),Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-9,线性组成部分,一元线性回归模型,总体的 Y轴截距,总体的斜率,随机误差项,因变量,自变量,随机误差部分,Business Statis
5、tics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-10,(续),取值Xi时,因变量的随机误差,Y,X,与Xi对应的Y的观测值,与Xi 对应的Y的预测值,Xi,斜率 = 1,截距 0,i,一元线性回归模型,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-11,一元线性回归方程可以估计总体回归直线,一元线性回归方程 (预测线),回归截距的估计值,回归斜率的估计值,第i个观测值的Y的估计(预测)值,第 i个观测值X的值,Business St
6、atistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-12,最小二乘法,我们可以求出使得Y 和 的离差平方和最小的b0 和 b1的值,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-13,求出最小二乘方程的解,系数 b0 和 b1 ,以及本章的其它回归结果,通过Excel或者Minitab求出,文章中为感兴趣的读者列出了公式,Business Statistics: A First Course, 5e 2009 Prentice-
7、Hall, Inc,Chap 12-14,b0 是当X 为零时, Y 的期望值b1 是当X 发生一个单元的变化时,Y的期望值发生的变化,对斜率和截距的解释,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-15,一个房地产经纪人希望得出房屋售价与房屋大小(以平方英尺为单位)的关系随意抽取10间房子作为一个样本 因变量 (Y) = 房价( 1000美元) 自变量 (X) = 平方英尺,一元线性回归的例子,Business Statistics: A First Course, 5e 2009 Prent
8、ice-Hall, Inc,Chap 12-16,一元线性回归例子:数据,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-17,一元线性回归例子: 散点图,房价模型: 散点图,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-18,一元线性回归的例子: 利用 Excel,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap
9、12-19,一元线性回归的例子: Excel 输出,回归方程为:,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-20,一元线性回归的例子: Minitab 输出,The regression equation isPrice = 98.2 + 0.110 Square FeetPredictor Coef SE Coef T P Constant 98.25 58.03 1.69 0.129 Square Feet 0.10977 0.03297 3.33 0.010S = 41.3303 R-S
10、q = 58.1% R-Sq(adj) = 52.8%Analysis of VarianceSource DF SS MS F P Regression 1 18935 18935 11.08 0.010 Residual Error 8 13666 1708 Total 9 32600,回归方程为:,房价 = 98.24833 +0.10977 (平方英尺),Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-21,一元线性回归的例子: 图表分析法,房价模型: 散点图和预测线,斜率 = 0.1097
11、7,截距 = 98.248,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-22,一元线性回归的例子: 对 bo的解释,b0 是当X 的值为零时,Y 的期望值(如果 0 在被观测到的X的取值范围内) 因为一个房子的面积不可能为0,所以截距b0没有实际解释意义,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-23,b1 是X增加一个单位,导致Y的期望值发生的变化 这里, b1 = 0.10977意味着,房子
12、每增加一平方英尺,房价的期望值平均增加0.10977(1000美元) = 109.77 美元,一元线性回归的例子: 对b1的解释,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-24,预测有2000平方英尺的房子的价格:,一个有2000平方英尺的房子的预测价格是317.85(1,000美元) = 317,850美元,一元线性回归的例子 :预测,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-25,一元线性
13、回归的例子: 预测,使用回归模型进行预测时,只能在数据的相关范围内做预测,相关范围内插值,不要试图推断超出观测X的相关范围的房价,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-26,离差的度量,总方差有两部分组成:,总平方和,回归平方和,残差平方和,其中:= 因变量的均值Yi = 因变量的观测值= 与Xi 对应的Y的观测值,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-27,(续),离差的度量,SST
14、 = 总平方和 (总变差) 度量 观测值Yi与均值Y的差异 SSR = 回归平方和 (能解释的离差平方和) 由X和Y之间的关系所决定的偏差 SSE = 残差平方和 (不能解释的离差平方和) 由X和Y关系以外的其它因素所造成的偏差,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-28,(续),Xi,Y,X,Yi,SST = (Yi - Y)2,SSE = (Yi - Yi )2,SSR = (Yi - Y)2,_,_,_,Y,Y,Y,_,Y,离差的度量,Business Statistics: A F
15、irst Course, 5e 2009 Prentice-Hall, Inc,Chap 12-29,可决系数 是总变差中由回归模型解释的部分所占的比例 可决系数也被称为: r-平方 ,并以 r2表示,可决系数 r2,注意:,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-30,r2 = 1,r2 值的例子,Y,X,Y,X,r2 = 1,r2 = 1,X 和 Y是强线性关系: 100% 的Y的离差可以由 X的离差来解释,Business Statistics: A First Course, 5e
16、2009 Prentice-Hall, Inc,Chap 12-31,r2 值的例子,Y,X,Y,X,0 r2 1,X 和 Y之间是弱线性关系: 一部分但并不是所有的Y的离差都可以用X的离差可以解释,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-32,r2 值的例子,r2 = 0,X 和 Y之间没有线性关系: Y 的值不依赖于X. (Y的离差不能用X的离差解释),Y,X,r2 = 0,Business Statistics: A First Course, 5e 2009 Prentice-Hal
17、l, Inc,Chap 12-33,一元线性回归的例子: 在Excel输出中的可决系数r2,58.08%的房价离差可以由平方英尺的离差来解释,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-34,一元线性回归的例子: 在Minitab 输出中的可决系数r2,The regression equation isPrice = 98.2 + 0.110 Square FeetPredictor Coef SE Coef T P Constant 98.25 58.03 1.69 0.129 Square
18、 Feet 0.10977 0.03297 3.33 0.010S = 41.3303 R-Sq = 58.1% R-Sq(adj) = 52.8%Analysis of VarianceSource DF SS MS F P Regression 1 18935 18935 11.08 0.010 Residual Error 8 13666 1708 Total 9 32600,58.08%的房价离差可以有平方英尺的离差来解释,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-35,估计值的标准误
19、差,观测值偏离回归线的标准差的计算公式为:,其中SSE = 残差平方和n = 样本量,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-36,一元线性回归的例子:在Excel中,估计值的标准差,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-37,一元线性回归的例子: 在 Minitab中,估计值的标准差,The regression equation isPrice = 98.2 + 0.110 Squa
20、re FeetPredictor Coef SE Coef T P Constant 98.25 58.03 1.69 0.129 Square Feet 0.10977 0.03297 3.33 0.010S = 41.3303 R-Sq = 58.1% R-Sq(adj) = 52.8%Analysis of VarianceSource DF SS MS F P Regression 1 18935 18935 11.08 0.010 Residual Error 8 13666 1708 Total 9 32600,Business Statistics: A First Course
21、, 5e 2009 Prentice-Hall, Inc,Chap 12-38,标准差的比较,Y,Y,X,X,SYX表示Y的观测值偏离回归线的程度,SYX的 大小应该是相对于样本数据中Y值的大小而言的,例如,相对于房价在200000美元-400000美元的范围 SYX = $41.33K 比较小,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-39,回归的假设条件 L.I.N.E,线性(Linearity) X 和Y 之间的关系是线性的 误差项相互独立(Independence of Errors)
22、 误差值是在统计上是独立的 误差项呈正态分布(Normality of Error) 给定任意 X值,误差项是服从正态分布的 同方差(方差齐性)(Equal Variance) 误差项所服从分布的方差为常数,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-40,残差分析,对于第 i个观测的残差 ei,是观测值与预测值之间的差 通过残差检验回归的假设条件 检验线性假设 评估独立性假设 评估正态分布假设 对各种层次的X,检验方差相同(方差齐性)的假设 残差的图形分析 可以画出残差随X的变化图,Busin
23、ess Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-41,检验线性的残差分析,非线性,线性,x,残差,x,Y,x,Y,x,残差,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-42,检验独立性的残差分析,不独立,独立,X,X,残差,残差,X,残差,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-43,检验正态性,检查残差的茎
24、叶图 检查残差的盒须图 检查残差的直方图 建立残差的正态概率图,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-44,检验正态性的残差分析,百分率,残差,当使用正态概率图时, 正态误差大约将会排列在一条直线上,-3 -2 -1 0 1 2 3,0,100,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-45,检验同方差的残差分析,不同方差,同方差,x,x,Y,x,x,Y,residuals,residua
25、ls,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-46,一元线性回归的例子:残差在Excel 中的输出,没有违背任何回归假设,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-47,有关斜率的统计推断,回归的斜率(b1) 的标准差可以通过下式求出:,其中:= 斜率标准差的估计值= 这个估计值的标准差,Business Statistics: A First Course, 5e 2009 Prentic
26、e-Hall, Inc,Chap 12-48,有关斜率的统计推断: t 检验,总体斜率的t检验 X 和 Y之间存在线性关系吗? 零假设与备择假设H0: 1 = 0 (不存在线性关系)H1: 1 0 (线性关系确实存在) 检验统计量,其中:b1 = 回归斜率系数1 = 斜率假定值Sb1 = 样本斜率的标准差,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-49,有关斜率的统计推断: t 检验的例子,估计的回归方程:,这个模型的斜率 0.1098 房价与房子建筑面积(平方英尺)有关系吗?,Busines
27、s Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-50,H0: 1 = 0 H1: 1 0,来自 Excel 的输出:,b1,Predictor Coef SE Coef T P Constant 98.25 58.03 1.69 0.129 Square Feet 0.10977 0.03297 3.33 0.010,来自 Minitab 的输出:,b1,有关斜率的统计推断: t 检验的例子,Business Statistics: A First Course, 5e 2009 Prentice-Hall, I
28、nc,Chap 12-51,检验统计量: tSTAT = 3.329,有足够的证据表明建筑面积影响房价,决策: 拒绝 H0,拒绝 H0,拒绝 H0,a/2=.025,-t/2,不拒绝 H0,0,t/2,a/2=.025,-2.3060,2.3060,3.329,d.f. = 10- 2 = 8,H0: 1 = 0 H1: 1 0,有关斜率的统计推断: t 检验的例子,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-52,H0: 1 = 0 H1: 1 0,来自 Excel输出 :,p-值,有足够的证
29、据表明建筑面积影响房价.,决策: 拒绝 H0, 因为 p-值 ,Predictor Coef SE Coef T P Constant 98.25 58.03 1.69 0.129 Square Feet 0.10977 0.03297 3.33 0.010,来自 Minitab输出:,有关斜率的统计推断: t 检验的例子,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-53,显著性的F检验,F 检验统计量:其中,其中 FSTAT 服从自由度为1和 (n 2)的F 分布,Business Stati
30、stics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-54,显著性F检验的 Excel 输出,自由度为1和8,F检验的p-值,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-55,显著性F检验的 Minitab 输出,Analysis of VarianceSource DF SS MS F P Regression 1 18935 18935 11.08 0.010 Residual Error 8 13666 1708 Total 9
31、 32600,自由度为1和8,F检验的p-值,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-56,H0: 1 = 0 H1: 1 0 = .05 df1= 1 df2 = 8,检验统计量: 决策:结论:,拒绝 H0 ,在显著性水平 = 0.05的 情况下,有足够的证据表明房子的大小影响销售价格,0, = .05,F.05 = 5.32,拒绝 H0,不拒绝 H0,临界值: F = 5.32,显著性的F检验,(续),F,Business Statistics: A First Course, 5e 2
32、009 Prentice-Hall, Inc,Chap 12-57,斜率的置信区间估计,斜率置信区间的估计:,房价的Excel打印输出:,在 95%的置信水平下, 斜率的置信区间为 (0.0337, 0.1858),d.f. = n - 2,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-58,由于变量房价的变化单元为1000美元,我们有 95% 的把握保证,每平方英尺的建筑面积对销售价格的影响在33.74美元到185.8美元之间,95% 的置信区间 不包括 0. 结论: 在0.05的显著性水平下,
33、房价与平方英尺的关系是显著的,(续),斜率的置信区间估计,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-59,相关系数的t检验,假设H0: = 0 (X 与 Y不相关) H1: 0 (相关)检验统计量(自由度为 n 2),Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-60,在.05的显著性水平下,有证据显示平方英尺与房价是线性关系吗?,H0: = 0 (不相关) H1: 0 (相关) =.05 , d
34、f = 10 - 2 = 8,(续),相关系数的t检验,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-61,结论: 在5%的显著性水平下,有证据表明存在线性关系,决策: 拒绝 H0,拒绝 H0,拒绝 H0,a/2=.025,-t/2,不拒绝 H0,0,t/2,a/2=.025,-2.3060,2.3060,3.329,d.f. = 10-2 = 8,(续),相关系数的t检验,Business Statistics: A First Course, 5e 2009 Prentice-Hall, In
35、c,Chap 12-62,均值的估计和单个数值的预测,Y,X,Xi,Y = b0+b1Xi,给定Xi,Y 均值的置信区间,给定Xi, 单个Y值的预测区间,目标: 对于给定的Xi, 形成因变量均值的置信区间表示对其值的不确定,Y,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-63,给定X,Y均值的置信区间,给定特定的Xi,估计 Y 均值的置信区间,区间的大小取决于与均值X的距离,Business Statistics: A First Course, 5e 2009 Prentice-Hall, I
36、nc,Chap 12-64,给定X,单个因变量Y的预测值区间,给定特定的Xi,估计单个因变量Y的预测值区间,为了反映单个个别事件的不确定性,将区间宽度增加一项额外项,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-65,均值估计的例子,求面积为2,000英尺的房子平均售价的95%置信区间,预测价格 Yi = 317.85 (1,000美元),估计Y|X=X置信区间,置信区间的端点是 280.66 和 354.90,或者从 280,660美元到 354,900美元,i,Business Statist
37、ics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-66,单个因变量估计的例子,一个面积有2,000英尺的95%预测价格区间,预测价格 Yi = 317.85 (1,000美元),估计 YX=X的预测值区间,预测区间的端点是 215.50 和 420.07, 或者从215,500美元到420,070美元,i,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-67,用Excel得到的对置信区间的估计与预测区间的估计,在 Excel中, 利用 P
38、HStat | regression | simple linear regression 选择对话框 “confidence and prediction interval for X=” , 并且输入X的值,以及置信水平,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-68,输入值,(续),对Y|X=Xi置信区间的估计,对YX=Xi预测区间的估计,Y,用Excel得到的对置信区间的估计与预测区间的估计,Business Statistics: A First Course, 5e 2009 Pr
39、entice-Hall, Inc,Chap 12-69,用minitab得到的对置信区间的估计与预测区间的估计,Predicted Values for New ObservationsNew Obs Fit SE Fit 95% CI 95% PI1 317.8 16.1 (280.7, 354.9) (215.5, 420.1)Values of Predictors for New ObservationsNew Square Obs Feet1 2000,输入值,对Y|X=Xi置信区间的估计,对YX=Xi预测区间的估计,Business Statistics: A First Cour
40、se, 5e 2009 Prentice-Hall, Inc,Chap 12-70,回归分析的缺陷,对最小二乘法回归的假设条件了解不足 不知如何评估最小二乘法的假设条件是否成立 当违背某个假设条件时,不知道如何选择其他适用的回归方法 在对实际问题了解不足的情况下,应用回归模型 在相关范围之外,外推预测值,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-71,避免回归缺陷的策略,首先画出散点图来观察X与Y之间可能的关系 使用残差分析法,检验回归的假设是否成立 将残差对自变量作散点图,判断该模型有没有违
41、背同方差的假设 利用残差的直方图、茎叶图、盒须图、正态概率图判断正态性的假设能否满足,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-72,避免回归缺陷的策略,如果显示有违背假设条件,采用其他方法或模型 如果没有显示违背假设条件,那么应着手检验回归系数的显著性,以及估计置信区间与预测值区间 避免在自变量的区域范围之外进行预测外推,(续),Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-73,小结,介绍了各种回归模型 回顾了回归假设与相关性 讨论了确定一元线性回归方程 描述了离差的度量 讨论了残差分析,Business Statistics: A First Course, 5e 2009 Prentice-Hall, Inc,Chap 12-74,小结,描述了对斜率的统计推断 讨论了相关系数 衡量关联强度 解决了估计均值与预测单个值的问题 讨论了回归可能存在的缺陷,并针对可能的缺陷提出了避免策略,(续),