1、相关回归,第九章 相关与回归 分析,南京财经大学统计学系 管于华,本章内容,一、相关回归的基本概念 二、直线相关分析 三、一元线性回归分析 四、多元线性回归分析 五、非线性回归分析,区别,相关回归的基本概念,相关分析与回归分析是研究客观现象之间数量联系的重要统计方法。对于相关分析和回归分析既可以从描述统计的角度也可以从推断统计的角度来说明。,一、函数关系、相关关系二、相关关系的种类 相关程度、相关方向、相关形式、 变量多少、相关性质,散点图,直线相关分析,相关关系的识别,一、散点图 (例子) 最简单的识别方法, 但不能给出相关的程度. 二、直线相关系数 1. 直线相关系数的设计思想及计算 2.
2、 应用相关系数时的注意事项 3. 相关系数的判断与检验,一元线性回归分析,变量y对x的一元线性回归理论模型,一元线性经验回归方程,估计方法:普通最小二乘估计 评价方法:可决系数、估计标准误差、显著性检验1 显著性检验2 预测方法:点估计 将代入回归方程得=181.5830+0.441410000=4595.5830(元),多元线性回归分析,基本概念:回归系数、被解释变量(因变量)、解释变量(自变量)、多元回归、 随机误差项。,例子,基本假定 参数估计 模型评价-拟合优度 模型评价-F检验 模型评价-t检验,矩阵,非线性回归,本质线性关系(Intrinsically Linear Models)
3、可转换成线性关系,用最小二乘法的方法求出回归系数。 (下面我们要研究的)本质非线性关系(Intrinsically Nonlinear Models)不可转换成线性关系,用迭代方法或分段平均值方法完成。,非线性回归分析,例子,非线性回归分析,例子,相关与回归的区别,相关分析用一个指标来表明现象间相互依存关系的密切程度。 回归分析根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间关系.,相关与回归的区别,相关分析所研究的变量是对等关系;回归分析所研究的两个变量不是对等关系,需要确定因变量和自变量。相关分析要求两个变量都必须是随机的,而回归分析,通常自变量不是随机变量,因变量是随机
4、的。,函数关系:对一个或几个变量任意一个取值,另一个变量都有唯一确定值与之相对应,这种关系确定性的关系称为函数关系。如某种商品的销售额Y与该商品的销售量X以及价格P之间的关系可以表示为Y=PX,这就是一种函数关系。一般把作为影响因素的变量称为自变量;把发生对应变化的变量称为因变量。Y是因变量,P与X是自变量。,函数关系,相关关系:当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在一定的范围内变化,这种不确定的相互关系,称为相关关系。 如:劳动生产率与工资水平的关系、投资额与国民收入的关系, 家庭支出和收入的关系。 相关关系不能用函数精确表达, 但经常
5、用一定的函数形式去近似地描述。,相关关系,按相关程度划分,完全相关:当一种现象的数量变化完全由另一个现象的数量变化所确定时,这两种现象间的关系为完全相关。即函数关系。不相关:当两个现象彼此互不影响,其数量变化各自独立时,称为不相关。不完全相关:两个现象之间的关系介于完全相关和不相关之间,称为不完全相关。(主要表现形式,主要研究对象),正相关:当一个现象的数量由小变大,另一个现象的数量也相应由小变大,这种相关称为正相关。如工人的工资随劳动生产率的提高而增加。负相关:当一个现象的数量由小变大,而另一个现象的数量相反地由大变小,这种相关称为负相关。如商品流转的规模越大,流通费用水平则越低。,按相关方
6、向划分,按相关形式划分,线性相关:当两种相关现象之间的关系大致呈现为直线关系时,称之为线性相关。如人均消费与人均收入通常呈线性关系。 非线性相关:如果两种相关现象之间,并不表现为直线的关系,而是近似于某种曲线关系,则这种关系称为非线性相关。如产品的平均成本与产品总产量之间的相关关系就是一种非线性关系。,单相关:一个变量对另一个变量的相关关系,称为单相关。 复相关:当所研究的是一个变量对两个或两个以上其他变量的相关关系时,称为复相关。如某种商品的需求与其价格水平及人们收入水平之间的相关关系就是一种复相关。 偏相关:在某一变量与多种变量相关的场合,当假定其他变量不变时,其中两个变量的相关关系称为偏
7、相关。,按变量多少划分,真实相关:当两种现象之间的相关确实具有内在的联系时,称之为“真实相关”。虚假相关:当两种现象之间的相关只是表面存在,实质上并没有内在的联系时,称之为“虚假相关”。,按相关性质划分,散点图,又称相关图。它是以直角坐标系的横轴代表变量X,纵轴代表变量Y,将两个变量相对应的数值用坐标点的形式描述出来,用来反映两变量之间相关关系的图形。,散点图,数据,散点图,散点图,设计思想及计算,例子,例子,注意事项,(1)相关系数的符号代表变量间的线性相关方向(2)相关系数的取值介于-1和1之间(3)相关系数很大不表示变量间存在因果关系,也可能两个变量同时受第三个变量的影响而使它们有很强的
8、相。 “虚假相关”(4)相关系数是说明线性联系程度的,相关系数很小的变量间可能存在非线性联系。,主观经验判别,高度线性相关 中度线性相关 低度线性相关 基本不线性相关,相关系数检验,1. t统计量:若取显著性水平0.05,查表得到临界值得:2. 查相关系数临界值表,根据n 与,就能直接找到相关系数的临界值,Why?,为什么要检验?,相关系数检验,普通最小二乘估计,正规方程组:,求解正规方程组得 :,例子,例子,回归方程:,可决系数,示意图,示意图,估计标准误差,例子,例子,显著性检验1,例子,显著性检验2,例子,例子,矩阵表示,基本假设,解释变量是确定性变量,不是随机变量,且要求矩阵X中的自变量列之间不相关,样本容量的个数应大于解释变量的个数。 独立、同分布、零均值正态分布的假定条件:,参数估计,与一元线性回归方程的参数估计原理一样 ,应该使得估计值与观测值y之间的残差在所有样本点上达到最小:即使Q达到最小。参数的最小二乘估计值为:另外:,模型评价-拟合优度,一般不再用可决系数而是用修正的可决系数,模型评价-F检验,整个回归模型的检验,模型评价-t检验,回归系数的显著性检验,五、多元线性回归分析,例子,非线性例子1,数据,模型,非线性例子2,柯布道格拉斯生产函数 C-D函数,数据,模型,变换,