1、2019/5/1,商学院 李丽明,1,第五讲 相关与回归分析,相关和回归分析是研究事物的相互关系、测定它们联系的紧密程度、揭示其变化的具体形式和规律性的统计方法,是构造各种经济模型、进行结构分析、政策评价、预测和控制的重要工具。,2019/5/1,商学院 李丽明,2,第一节、相关分析,一、相关分析概述 二、相关系数及其计算,2019/5/1,商学院 李丽明,3,一. 相关分析概述,2019/5/1,商学院 李丽明,4,比较下面两种现象间的依存关系, 出租汽车费用与行驶里程:总费用=行驶里程 每公里单价, 家庭收入与恩格尔系数:家庭收入高,则恩格尔系数低。,函数关系 (确定性关系),相关关系 (
2、非确定性关系),2019/5/1,商学院 李丽明,5,现象间的依存关系大致可以分成两种类型:,函数关系,相关关系,指现象间所具有的严格的确定性的依存关系,指客观现象间确实存在,但数量上不是严格对应的依存关系,函数关系与相关关系之间并无严格的界限:有函数关系的变量间,由于有测量误差及各种随机因素的干扰,可表现为相关关系;对具有相关关系的变量有深刻了解之后,相关关系有可能转化为或借助函数关系来描述。,2019/5/1,商学院 李丽明,6,变量间的关系 (函数关系),是一一对应的确定关系 设有两个变量 x 和 y ,变量 y 随变量 x 一起变化,并完全依赖于 x ,当变量 x 取某个数值时, y
3、依确定的关系取相应的值,则称 y 是 x 的函数,记为 y = f (x),其中 x 称为自变量,y 称为因变量 各观测点落在一条线上,2019/5/1,商学院 李丽明,7,变量间的关系 (函数关系), 函数关系的例子 某种商品的销售额(y)与销售量(x)之间的关系可表示为 y = p x (p 为单价) 圆的面积(S)与半径之间的关系可表示为S = R2 企业的原材料消耗额(y)与产量(x1) 、单位产量消耗(x2) 、原材料价格(x3)之间的关系可表示为y = x1 x2 x3,2019/5/1,商学院 李丽明,8,变量间的关系 (相关关系),变量间关系不能用函数关系精确表达 一个变量的取
4、值不能由另一个变量唯一确定 当变量 x 取某个值时,变量 y 的取值可能有几个 各观测点分布在直线周围,2019/5/1,商学院 李丽明,9,变量间的关系 (相关关系), 相关关系的例子 商品的消费量(y)与居民收入(x)之间的关系 商品销售额(y)与广告费支出(x)之间的关系 粮食亩产量(y)与施肥量(x1) 、降雨量(x2) 、温度(x3)之间的关系 收入水平(y)与受教育程度(x)之间的关系 父亲身高(y)与子女身高(x)之间的关系,2019/5/1,商学院 李丽明,10,相关关系的类型,1、按相关的程度可分为完全相关、不完全相关和 不相关 2、按相关 的方向可分为正相关和负相关 3、按
5、相关的形式可分为线性相关和非线性相关 4、按所研究的变量多少可分为单相关、复相关和偏相关,2019/5/1,商学院 李丽明,11,相关关系的图示,2019/5/1,商学院 李丽明,12,二. 相关系数及其计算,2019/5/1,商学院 李丽明,13,相关关系的测定,定性分析,定量分析,是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作出判断,在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数与判定系数等方法,来判断现象之间相关的方向、形态及密切程度,2019/5/1,商学院 李丽明,14,相关关系的测度 (相关系数),对变量之间关系密切程度的度量 对两个
6、变量之间线性相关程度的度量称为简单相关系数 若相关系数是根据总体全部数据计算的,称为总体相关系数,记为 若是根据样本数据计算的,则称为样本相关系数,记为 r,2019/5/1,商学院 李丽明,15,相关关系的测度 (相关系数),一.简单相关系数 简单相关分析是对两个变量之间的相关程度进行分析。 简单相关系数是在线性相关的条件下用来说明两个变量之间相关关系和相关密切程度的统计分析指标。 样本相关系数的计算公式,或化简为,2019/5/1,商学院 李丽明,16,相关系数r的取值范围:-1r1,2019/5/1,商学院 李丽明,17,相关系数的经验解释,|r|0.8时,可视为两个变量之间高度相关 0
7、.5|r|0.8时,可视为中度相关 0.3|r|0.5时,视为低度相关 |r|0.3时,说明两个变量之间的相关程度极弱,可视为不相关 上述解释必须建立在对相关系数的显著性进行检验的基础之上,2019/5/1,商学院 李丽明,18,相关系数的性质,性质1:r具有对称性。即x与y之间的相关系数和y与x之间的相关系数相等,即rxy= ryx 性质2:r数值大小与x和y原点及尺度无关,即改变x和y的数据原点及计量尺度,并不改变r数值大小 性质3:仅仅是x与y之间线性关系的一个度量,它不能用于描述非线性关系。这意为着, r=0只表示两个变量之间不存在线性相关关系,并不说明变量之间没有任何关系 性质4:r
8、虽然是两个变量之间线性关系的一个度量,却不一定意味着x与y一定有因果关系,2019/5/1,商学院 李丽明,19,相关系数的显著性检验,1.检验两个变量之间是否存在线性相关关系 检验的步骤为 提出假设:H0: ;H1: 0,计算检验的统计量:,确定显著性水平,并作出决策若tt,拒绝H0若tt,不拒绝H0,2019/5/1,商学院 李丽明,20,相关关系的测度 (相关系数计算例子),【例1】在研究我国人均消费水平的问题中,把全国人均消费额记为y,把人均国民收入记为x。我们收集到19811993年的样本数据(xi ,yi),i =1,2,,13,数据见表5-1,计算相关系数。,2019/5/1,商
9、学院 李丽明,21,相关关系的测度 (计算结果),解:根据样本相关系数的计算公式有人均国民收入与人均消费金额之间的相关系数为 0.9987,2019/5/1,商学院 李丽明,22,相关关系的测度 (相关系数),二.有序数据的相关系数(等级相关系数)对于许多难以用数字准确计量的现象之间的关系难以用单相关系数去衡量,可以用等级相关系数。有序数据是由数据在一个有序名单中的位置值组成。定义Sperman 秩相关系数为:等级相关系数的取值区间在-1和1之间。,当 的值愈接近于1时,x与y的相关程度愈强,当 值愈接近于0时,x与y的相关程度愈弱。,2019/5/1,商学院 李丽明,23,例2:某次歌手大奖
10、赛中两名评委对10名歌手的评分等级如下表,试分析两位评委评分的相关程度。,求得两者等级相关系数为0.321,即两个评委的评定等级的相关程度不高,说明两者结论一致。,2019/5/1,商学院 李丽明,24,相关关系的测度 (相关系数),三、偏相关所谓偏相关,是反指其它变量被固定后,计算任意两个变量之间的相关系数,这种相关系数称为偏相关系数。 关于相关关系的计算公式,只要求了解,不要求记忆。,2019/5/1,商学院 李丽明,25,相关分析的SPSS操作,AnalyzeCorrelate Bivariate(计算变量间的相关系数)Partial(计算偏相关系数),操作,2019/5/1,商学院 李
11、丽明,26,作散点图对话框,例:人均国民收入与人均消费的相关分析,2019/5/1,商学院 李丽明,27,从图上可看出变量x与y之间存在线性相关关系。,2019/5/1,商学院 李丽明,28,相关系数r=0.999,双侧检验p=0.000.05,故变量x与y之间显著相关。,2019/5/1,商学院 李丽明,29,不良贷款与贷款余额之间的相关分析,2019/5/1,商学院 李丽明,30,不良贷款与贷款余额之间的散点图,2019/5/1,商学院 李丽明,31,第二节 一元线性回归分析,回归分析是根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系。回归分析已成为现代统计
12、学中应用最广泛、研究最活跃的一个独立分支。进行回归分析通常要设定一定的数学模型,在回归分析中,最简单的模型是只有一个因变量和一个自变量的线性回归模型。,2019/5/1,商学院 李丽明,32,“回归”一词的由来,回归分析最旱起源于生物学的研究,“回归”最初是遗传学中的一个名词。1889年英国的生物学家兼统计学家F.Gallton和他的朋友K.Pearson收集了上千个家庭成员的身高、臂长和腿长的记录。企图寻找出子女们身高与父母们身高之间关系的具体表现形式。根据1078个家庭的调查结果得到:,2019/5/1,商学院 李丽明,33,X为父母的身高,Y为成年子女的身高。,但从他们的研究结果来看,并
13、非高的越长越高,矮的越长越矮(父母身高增加一个单位,而Y仅增加0.516个单位)。高个子父母的子女身高有低于其父母身高的趋势,而矮个子父母的子女身高有高于其父母身高的趋势,结论:父母所生子女有回归于人类平均身高的趋势,故某人种的平均身高是相当稳定的。 见1889年F.Gallton的论文普用回归定律。 回归的含义:任何变异的东西总有趋向于一般、平稳的势头。 后来人们将此种方法普遍用于寻找变量之间的规律 。,2019/5/1,商学院 李丽明,34,一、一元线性回归模型的建立 设因变量y(通常是随机变量)和一个自变量(非随机变量)X之间有某种相关关系。在x的不全相同的取值点x1,x2,xn作为独立
14、观察得到y的个观察值y1,y2, ,yn记为( x1, y1 )( x2 , y2 ), ,(xn , yn )。根据这组数据寻求X与Y之间关系。 设一元线性回归模型为: yi = b0 + b1 xi + ei,2019/5/1,商学院 李丽明,35,第二节 一元线性回归分析,ei (为误差或残差,统计上称为随机误差)的标准假定:假定1:零均值假定。E( ei )=0,即误差项的期望值为0假定2:同方差假定。Var( ei )= E( ei2 )=2 ;即误差项的方差为常数假定3:误差项之间不存在序列相关关系,其协方差为零假定4:自变量是给定的变量,与随机误差项线性无关假定5:随机误差项服从
15、正态分布,2019/5/1,商学院 李丽明,36,第二节 一元线性回归分析,二.一元线性回归模型的估计 (一)回归系数的估计在根据样本资料确定样本回归方程时,一般总是希望Y的估计值从整体来看尽可能地接近其实际观测值,即残差ei的总量越小越好。 最小二乘法(oLS估计)就是通过使残差平方和为最小来估计回归系数的一种方法。,2019/5/1,商学院 李丽明,37,参数 0 和 1 的最小二乘估计:,使因变量的观察值与估计值之间的离差平方和达到最小来求得 和 的方法。即,用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小,2019/5/1,商学院 李丽明,38,最小二乘法
16、 (图示),2019/5/1,商学院 李丽明,39, 根据最小二乘法的要求,可得求解 和 的标准方程如下,2019/5/1,商学院 李丽明,40,估计方程的求法 (实例),【例】根据例1中的数据,配合人均消费金额对人均国民收入的回归方程根据 和 的求解公式得,2019/5/1,商学院 李丽明,41,(二)一元线性回归模型的检验在求出模型的参数后,模型建立起来了,然而这种模型仅是真实模型的近似,这种近似是否恰当?所假定的线性关系是否合理,模型的精确度如何?所有这些都必须经过检验才知道。模型的检验主要包括经济意义检验,统计检验和预测检验三部分。,2019/5/1,商学院 李丽明,42,(1)拟合优
17、度的检验所谓拟合优度是指样本观测值聚集在样本回归线周围的紧密程度。判断回归模型拟合程度优劣最常用的指标是可决系数(决定系数),该指标建立在对总离差平方和进行分解的基础上。,2019/5/1,商学院 李丽明,43,离差平方和的分解 (三个平方和的意义),总平方和(SST) 反映因变量的 n 个观察值与其均值的总离差 回归平方和(SSR) 反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和 残差平方和(SSE) 反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和,2019/5/1,
18、商学院 李丽明,44,注意: R2与相关系数r不同,在回归分析中,R2是一个比r更有意义的度量,因为前者告诉我们在因变量的变化中由解释变量解释的部分占怎样一个比例。即R2表明用X来说明Y变化所达到的百分比。因而它对一个变量的变化在多大程度上决定另一个变量的变化,提供了一个总的度量,R2称为判定系数(或决定系数),这里称为拟合优度。在检验过程中,R2越接近于1拟合得越好,一般要求R 2 0.7。,2019/5/1,商学院 李丽明,45,(2)显著性检验回归分析中的显著性检验包括两方面的内容:一是对各回归系数的显著性检验,通常采用t检验;(在SPSS中,若P值 ,则t检验通过)二是对整个回归方程的
19、显著性检验,通常是在方差分析的基础上采用F检验。 在应用上最有意义的是检验回归系数 是否为零的问题。 H0: =0,H1: 0 如果 =0,则回归直线变为y= ,即y的取值与X的值无关,即x、y之间没有线性关系;如果 0,则表明x与y之间有一定的线性关系。,2019/5/1,商学院 李丽明,46,(3)、一元线性回归模型预测建立回归模型的重要目的之一是进行预测。如果拟合的样本回归方程经过检验,被认为具有经济意义,同时被证明有较高的拟合程度,就可以利用其来进行预测。 (一)点估计 y 的平均值的点估计 y 的个别值的点估计 (二)区间估计 y 的平均值的置信区间估计 y 的个别值的预测区间估计,
20、2019/5/1,商学院 李丽明,47,第三节 多元线性回归分析简介,多元线性回归分析是研究在线性相关条件下,两个和两个以上自变量对一个因变量的数量变化关系。表现这一数量关系的数学公式,称为多元线性回归模型。多元线性回归模型是一元线性回归模型的扩展,其基本原理与一元线性回归模型相类似,只是在计算上比较麻烦一些而已。 多元线性回归模型的一般形式如下: y=a+b1x1+b2x2+.+bkxk+ei实际求解回归系数的估计值,用矩阵形式来表达较为简便,也可以依靠统计软件。,2019/5/1,商学院 李丽明,48,建立实际问题回归模型的过程:,实际的经济问题,设置指标变量,模型运用,收集整理数据,构造
21、理论模型,估计模型参数,经济变量控制,经济因素分析,修改,经济决策预测,模型检验,N,Y,2019/5/1,商学院 李丽明,49,具体步骤: 1.进行因素分析,确定因变量和自变量 2.绘制散点图,构造回归方程的一般形式 3.估计参数建立模型 4.回归方程的检验 5.回归方程的预测,2019/5/1,商学院 李丽明,50,实例分析1,建立不良贷款与贷款余额估计方程,2019/5/1,商学院 李丽明,51,不良贷款与贷款余额估计方程为,2019/5/1,商学院 李丽明,52,当贷款余额为72.8亿元时,不良贷款的点估计值为1.93亿元,不良贷款的的95%的置信区间为(0.9726 , 2.8857
22、),不良贷款的95%的预测为(-2.22768 , 6.1352),2019/5/1,商学院 李丽明,53,1、建立国内旅游消费模型,实例分析2,我国国内生产总值GDP(亿元)与国内旅游收入y(亿元)的统计数据(见下表),由这些数据建立国内旅游消费模型,并根据未来对国内生产总值的估计,预测未来的旅游消费。,2019/5/1,商学院 李丽明,54,数据来源:中国统计年鉴(2004),北京,中国统计出版社,2019/5/1,商学院 李丽明,55,实例分析2,第一步:先作相关分析。(Analyze Correlate Bivariate ) 判断国内生产总值GDP与国内旅游收入y是否显著相关。,从表
23、可知变量y与GDP的相关系数r=0.972,双侧检验P=0.000.05,故变量y与GDP之间显著相关。,表1.1,2019/5/1,商学院 李丽明,56,第二步:作散点图(Graphs Scatter),从散点图可知,y与GDP近似线性关系,故设模型为:,2019/5/1,商学院 李丽明,57,第三步:估计参数建立模型 (Analyze Regression Linear),线性回归模型对话框,2019/5/1,商学院 李丽明,58,表1.2,表1.3,表1.4,2019/5/1,商学院 李丽明,59,表1.5,结果说明: (1)表1.2表明使用全部引入法将变量GDP引入。 (2)从表1.3
24、可知,相关系数R=0.972,可决系数R2=0.946估计标准误差=304.47。 (3)表1.4为方差分析表,回归平方和SSE=1.6000000,残差平方和SSR=927044.9,总偏差平方和SST=I.7000000,回归均方MSR=16117650.5,残差均方MSE=92704.485,检验统计量F=178.861,检验P=0.0000.05,即可认为回归系数具有显著意义。可得直线回归方程为:,2019/5/1,商学院 李丽明,60,第四步:经济意义检验,经济意义检验:从方程可知我国国内生产总值GDP的系数为0.0435为正数,符合经济意义。并表示从1992年到2003年,每增加的
25、百元GDP中约有4.4元用于国内旅游消费。,2019/5/1,商学院 李丽明,61,第五步:统计检验,取显著性水平=0.05, (1)、拟合优度检验:由可决系数R2=0.946,大于0.7,说明模型对数据的拟合程度较高。 (2)、F检验: 由F=178.861,检验P=0.0000.05,即可认为回归系数具有显著意义。这说明原先的线性模型假设是对的。 (3)、t检验:对于t检验,先检验GDP,因为GDP的t统计量为13.186,检验P=0.0000.05,故GDP为y的自变量,再检验常数项,因为常数项的t统计量为-3.959,检验P=0.0030.05 ,所以常数项的t检验通过。,2019/5
26、/1,商学院 李丽明,62,第六步:预测,1、先求自变量GDP的预测值,为此先生成时间序列GDPt-1 (Transform Create Time Series),选择滞后函数,点击改变变量,再点击,2019/5/1,商学院 李丽明,63,然后估计如下方程:,2019/5/1,商学院 李丽明,64,将2003年的GDP的值117251.9代入以上模型,可求得2004年GDP的值为124228.312,又以2004的值代入求2005年的GDP值为131021.318,又以2005的值代入求2006年的GDP值为137636.009,依次类推,可预测多期GDP的值。,GDP的预测:,2019/5
27、/1,商学院 李丽明,65,2、y值的点预测,(1)、将2006年的GDP代入方程,即可求出y的预测值。(2)、也可用SPSS软件操作完成。,2019/5/1,商学院 李丽明,66,先点击,选中进行区间预测,选中进行点预测,2019/5/1,商学院 李丽明,67,点预测值:,2006年国内旅游收入的预测值为4970.354亿元。,预测值,2019/5/1,商学院 李丽明,68,3、区间预测:,2006年旅游平均收入的95%的置信区间为(4457.788 , 5482.921),2006年旅游收入的95%的预测区间为(4120.081 , 5820.628),上限,下限,2019/5/1,商学院
28、 李丽明,69,该预测区间表明2006年旅游消费预测值小于5820.628(亿元)和大于4120.081(亿元)的风险均小于5% 。,2019/5/1,商学院 李丽明,70,某大型牙膏制造企业为了更好地开拓产品市场,找出公司生产牙膏销售量与销售价格、广告投入等之间的关系,从而预测出在不同价格和广告费用下的销售量。为此,销售部的研究人员收集了过去30个销售周期(每个销售周期为4周)公司生产的销售量、销售价格、投入的广告费用,以及其它厂家生产的同类牙膏的市场平均销售价格,见表2-2,根据这些数据建立牙膏销售量与价格和广告投入的膏销售模型,为制定价格策略和广告投入策略提供数量依据。,实例分析3,20
29、19/5/1,商学院 李丽明,71,2019/5/1,商学院 李丽明,72,实例分析3,2、建立牙膏销售量模型 第一步:为了选择模型的形式,分别作y与x1,y与x2的散点图。从图上可看出y与x1近似直线关系,y与x2近似二次曲线关系。因此设模型的形式为:,2019/5/1,商学院 李丽明,73,第二步:估计模型参数,用Cpmputet生成新的序列x3=x22,2019/5/1,商学院 李丽明,74,(3.528) (3.645) (-2.477)(2.826) p值 (0.002 ) (0.001 ) (0.020) (0.009) R2=0.9089 F=86.52(p=0.000),求得牙
30、膏销售量模型为:,2019/5/1,商学院 李丽明,75,第三步:求销售量的预测值及预测区间,若公司计划在未来的某个销售周期中,维持产品的价格差为x1=0.15元,并将投入x2=5.5百万元的广告费用,则该周期牙膏销售量的预测值=7.69705(百万支)预测区间为:(7.20275,8.19136),2019/5/1,商学院 李丽明,76,该预测区间说明在未来的某个销售周期中,如果公司维持产品的价格差0.15元,并投入550万元的广告费用,则牙膏销售量预测值小于8.19136百万支和大于7.20275百万支的风险均小于5% 。实际操作时,预测上限可以用来作为库存管理的目标值,即公司可以生产(或
31、库存)8.19136百万支牙膏来满足该销售周期顾客的需求,预测下限则可以用来较好地把握公司的现金流,理由是公司对该周期销售7.20275百万支牙膏十分自信。,2019/5/1,商学院 李丽明,77,实例分析4,3、人均国民收入与人均消费的关系(应用P188),2019/5/1,商学院 李丽明,78,4、银行是否批准抵押贷款申请?(应用P190),P=0.5980.05,y与x3之间不存在线性关系,剔除后重新估计方程,2019/5/1,商学院 李丽明,79,2019/5/1,商学院 李丽明,80,所得的回归线性模型为:,(0.696) (2.787) (3.027),P值 (0.506) (0.
32、024) (0.016),R2=0.88 F=13.7(P=0.003),2019/5/1,商学院 李丽明,81,当x1=18,x2=1.5,y=130.20714,平均售价的置信区间为(107.2844, 153.1298),某家售价的置信区间为(70,216 ,190.198),2019/5/1,商学院 李丽明,82,案例分析6:预测房地产价格,为研究住宅的销售价格和建筑成本之间的关系,住宅建筑管理部门随机抽取了2002年销售的24座住宅楼,得到了它们的销售价格和直接建造成本(房地产开发商的建造成本,不含其它成本因素)的有关数据表5.1。研究者想知道这样一些问题:一是销售价格与建造成本之间
33、是一种什么样的关系?它们之间关系的强度如何?二是能否建立销售价格与建造成本之间的关系式来预测出销售价格?,2019/5/1,商学院 李丽明,83,表5.1,2019/5/1,商学院 李丽明,84,第一步:绘制散点图,并分析销售价格与建造成本之间的关系。,2019/5/1,商学院 李丽明,85,从图上可看出y与x近似直线关系,再求其相关系数为:,相关系数R=0.979,且P=0.0000.05说明销售价格与建造成本之间线性相关关系显著。,2019/5/1,商学院 李丽明,86,第二步:估计模型参数,设回归分析模型为:,2019/5/1,商学院 李丽明,87,2019/5/1,商学院 李丽明,88
34、,由此可得销售价格对建造成本的回归方程为:,P值 (0.992) (0.000),R2=0.979 F=517.24(P=0.00) DW=1.638,经济意义:回归系数 =2.326表示,建造成本每增加1元,销售价格平均增加2.3264元。,2019/5/1,商学院 李丽明,89,第三步:预测,1、点估计 (1)y的平均值的点估计E(Y0),若要估计建造成本为2000元时,所有住宅楼销售价格的平均值为:,(2)y的个别点的估计,若要知道建造成本为2000元的那座住宅楼(这里是5号楼)的销售价格为:,在点估计的条件下,对于同一个点x0,平均值的点估计的个别点的点估计是一样的,但在区间估计中则是
35、不同的。,点估计值,X0=2000的点,2019/5/1,商学院 李丽明,90,第三步:预测,2、区间估计,当建造成本=2000元时,E(Y0)的置信区间为: (4375.393, 4925.131),当建造成本=2000元时,销售价格95%的预测区间为: (3280.223, 6020.303),2019/5/1,商学院 李丽明,91,第三步:预测,3、当建造成本=3000元时,住宅楼销售价格的平均值为:6976.667元/平方米。 当建造成本=3000元时,销售价格95%的预测区间为: (5593.548, 8359.750),2019/5/1,商学院 李丽明,92,回归分析还未结束, 请听下回分解!,