1、第2 章 回归分析的性质,2.1 回归的含义 2.2 经济变量间的关系 2.3 相关 2.4 数据,2.1 回归的含义,一、回归的历史渊源 F.高尔顿(Francis Galton)于1886年的文章“Family Likeness in Stature”中提出了“普遍回归定律”(Law of Universal Regression):给定父母的身高,儿女的平均身高趋向于全体人口的平均身高。K皮尔逊(Karl Pearson)于1903年文章“On the Law of Inheritance”中证实:对于一个父辈高的群体,儿辈的平均身高低于他们父辈的身高,而对于一个父辈矮的群体,儿辈的平均
2、身高则高于其父辈的身高,即儿辈回归于所有儿辈的平均身高。,160,165,170,175,180,185,140,150,160,170,180,190,200,Y,X,儿子们身高向着平均身高“回归”,以保持种族的稳定,二、回归的现代含义,回归分析(regression analysis)是指研究某一个变量与一个或多个变量之间的统计依赖关系。回归的目的(实质):在于通过后者的已知或设定值,去估计和(或)预测前者的(总体)均值。,2.2 经济变量间的关系,(1)确定性关系或函数关系:研究的是确定现象非随机变量间的关系。(2)统计依赖关系:研究的是非确定现象随机变量间的关系。,经济变量之间的关系,
3、大体可分为两类:,例如:,函数关系:,统计依赖关系:,2.3 相关,一、相关的定义和分类相关(correlation)是指两个或两个以上变量间相互关联的程度或强度.,1、按强度,完全相关:变量间存在函数关系。 高度相关(强相关):变量间近似存在函数关系。 弱相关:变量间有关系但不明显。 零相关:变量间不存在任何关系。,完全相关,高度相关,弱相关,零相关,2、按变量个数,非线性相关/负相关,线性相关/正相关,线性相关/负相关,二、简单线性相关的度量,用协方差? 用简单线性相关系数,简称相关系数(correlation coefficient)度量两个变量间的线性相关强度,用 表示。 的随机变量表
4、达式是,样本相关系数r,性质: (1)r具有对称性(2)r与原点和尺度都无关,三、简单线性相关系数的取值范围和局限性,相关系数的取值范围是 -1,1。相关系数的符号与协方差的符号相同。,局限性,只适用于考察变量间的线性相关关系 变量之间零相关与变量之间相互独立是不同的 相关系数不能揭示相关性的原因,r=0.99, 1997-2001, 案件数(百万件),四、回归与相关的区别与联系,区别: (1)回归分析强调因果关系,相关分析不关心因果关系。 (2)变量的性质不同。相关分析中的变量都是随机变量,且关系对等。,确定性变量,随机变量,解释变量,因变量,回归分析,(3)分析方法不同相关分析:相关系数法
5、回归分析:建立回归方程 (4)分析目的不同相关分析研究的是变量之间的相关性(方 向和程度)回归分析目的是根据解释变量的已知或给定值,预测因变量所对应的总体均值。,联系:,1、相关分析是回归分析的基础和前提。 2、回归分析是相关分析的深入和继续。,2.4 数据,一、数据的分类 按照数据与时间的关系,可以分为: 时间序列数据(time series data) 横截面数据(cross-section data) 面板数据(panel data/ pooling data),实例:我国地区的生产总值,按照变量测量尺度的不同,可以分为: 比率数据(ratio data) 区间数据(interval data) 序数数据(ordinal data) 名义数据(nominal data),二、数据的来源和质量,社会科学数据都是非实验所得,存在测量误差,或出于疏漏或差错 ; 在问卷调查中,存在选择性偏误; 抽样方法不一样; 数据高度加总; 保密因素,