1、相关理论,相关分析是研究变量间相互关系的最基本方法。从相关分析中引出的相关系数是回归分析的一个基本统计量。掌握它有助于对经济问题和经济计量模型的分析与理解。,主要内容,定义与分类 线性相关的度量 相关系数的取值 相关系数的局限性 相关系数的检验,1相关的定义与分类,定义:相关(correlation)指两个或两个以上变量间相互关系的程度或强度。 分类:按强度分 完全相关 变量间存在函数关系。例,圆的周长,L = 2R 高度相关(强相关) 变量间近似存在函数关系。例,我国家庭收入与支出的关系。 弱相关 变量间有关系但不明显。例,近年来我国耕种面积与产量。 零相关 变量间不存在任何关系。例,某班学
2、生的学习成绩与年龄。,分类,按变量个数分 简单相关:指两个变量间相关 按形式分:线性相关, 非线性相关 按符号分:正相关, 负相关, 零相关 复相关(多重相关和偏相关):指三个或三个以上变量间的相关。,相关图,非线性相关,相关图,负相关,相关图,零相关,2简单线性相关的度量,简单线性相关系数,简称相关系数(correlation coefficient)度量了两个变量间的线性相关强度,用 表示。 的随机变量表达式是,相关系数的表达式, 的统计表达式,其中T,总体容量;xt, yt,变量的观测值;,,变量观测值的均值。, 为什么能对变量间的线性相关强度进行定量度量,因为 表达式的分子是协方差,C
3、ov (xt , yt);分母是x和yt的标准差之积。而xt和yt的标准差不会为零,所以Cov (xt , yt) 是否为零,就决定了 是否为零,即标志着变量xt, yt间是否存在线性相关关系。 但Cov(xt , yt) 有两个缺点:它是一个有量纲的量,取值容易受测量单位的影响;取值范围宽,相关性越强,Cov(xt , yt) 取值越大。为克服上述缺点,用xt, yt的标准差除Cov(xt , yt),于是就得到相关系数 的统计表达式。它是一个无量纲量。,样本相关系数,相关系数 是对总体而言。当研究某个问题时,所得数据常是一个样本。对样本来说,相关系数常用r表示,即r是总体相关系数 的估计值
4、。,3相关系数的取值范围,()当两个变量严格服从线性关系时,= 1。 证:设直线斜率为k, 即y = a + k x。则有,3相关系数的取值范围,()当两个变量不存在线性关系时, =。 ()上述是两种极端情形,所以相关系数的取值范围是 -1,1。 当 (xt , yt) 0时,则 0 (正相关); 当(xt , yt) 0时,则 0 (负相关); 若(xt , yt) = 0,则 = 0 (零相关)。,用 (xt ) ( yt )解释 正相关与负相关,4线性相关系数的局限性,(1) 只适用于考察变量间的线性相关关系。也就是说当 = 0时,只说明二变量间不存在线性相关关系,但不能保证不存在其它非
5、线性相关关系。所以变量不相关与变量相互独立在概念上是不同的。 (2) 相关系数的计算是一个数学过程。它只说明二变量间的相关强度,但不能揭示这种相关性的原因,不能揭示变量间关系的实质,即变量间是否真正存在内在联系,因果关系。所以在计算r 的同时,还要强调对实际问题的分析与理解。,(3) 一般说二变量相关时,可能属于如下一种关系。 单向因果关系。如施肥量与农作物产量;对金属的加热时间与温度值。 双向因果关系。如工业生产与农业生产;商品供给量与商品价格。 另有隐含因素影响二变量变化。如市场上计算机销量与电视机销量呈正相关。显然人均收入的增加是一个隐含因素。 虚假相关。如年国内生产总值与刑事案件数呈正
6、相关。显然二变量间不存在因果关系。应属虚假相关。中国和美国某个经济指标高度相关,显然这没有可比性,毫无意义。,5简单相关系数的检验,(1) 直接检验(查相关系数临界值表)H0: = 0; H1: 0 用xt和yt的样本计算相关系数r,以自由度f = T - 2查临界值表。 检验规则是若 r r (T-2) (临界值),则xt和yt相关;若 r r (T-2) (临界值),则xt和yt不相关。,相关系数检验,(2) t 检验H0: = 0; H1: 0其中2表示涉及两个变量。若 t t (T-2) ,则xt和yt相关;若 t t (T-2) ,则xt和yt不相关。, t (T - 2),6偏相关
7、系数,以上介绍了简单线性相关系数,但是当两个变量xt, yt同时受其它变量z1t, z2t, , 影响时,有必要研究当控制其它变量z1t, z2t, ,不变时,该两个变量xt, yt之间的相关关系。称这种相关关系为偏相关关系。以3个变量xt, yt, zt,为例(多于3个变量的情形与此相似。),测量思路,假定控制zt不变,测度xt, yt偏相关关系的偏相关系数定义如下。= 控制zt不变条件下的xt, yt的简单相关系数。 因为zt也是随机变量,一般不容易得到控制zt为一个常数条件下的xt和yt的值。实际计算方法是,从xt, yt中分别剔除zt的影响,然后计算相关系数。,计算偏相关系数的步骤,(
8、1)求xt对zt的回归估计式,xt = + zt + 计算残差,= xt - - zt 中不再含有zt对xt的影响。,(2)求yt对zt的回归估计式 计算残差中不再含有zt对yt的影响。则 与 的简单相关系数就是xt与yt在剔除zt的影响后的偏相关系数,即,举例,财政收入与中央支出、地方支出之间偏相关系数的计算。 中央支出、地方支出之间简单相关系数为0.981 中央支出、地方支出之间偏相关系数为-0.8462,7复相关系数,在多元回归中,用偏相关系数可以分别测量被解释变量对每个解释变量的偏相关关系,而复相关系数则是测量被解释变量与全部解释变量的相关关系。,复相关系数的具体计算,假定yt是被解释变量,解释变量是xt1, xt2, , xt k 1,复相关系数的具体计算过程是: (1)用yt对xt1, xt2, , xt k -1回归,求出yt的拟合值序列,复相关系数的具体计算,(2)计算yt与 的简单相关系数,则称 是yt与xt1, xt2, , xt k -1的复相关系数。 复相关系数与简单相关系数r的区别是简单相关系数r的取值范围是-1,1,复相关系数的取值范围是0,1。复相关系数是可决系数的算术根。,