1、第8章 相关与回归分析,8.1 相关与回归的基本概念8.2 简单线性相关与回归分析8.3 多元线性相关与回归分析8.4 非线性相关与回归分析,学习目标,1. 变量间的相关关系与相关系数的计算2. 总体回归函数与样本回归函数3. 线性回归的基本假定4. 简单线性回归参数的估计与检验5. 多元线性回归参数的估计与检验6. 多个变量的线性相关关系:复相关系数和偏相 关系数7. 常用的可以转换为线性回归的非线性函数8. 非线性相关指数,第 一 节,回 归 与 相 关 的 概 念,一、函数关系与相关关系,变量之间的依存关系是严格的,它们的关系是固定不变的,对于某一种变量的取值,另一变量都有一完全确定的值
2、与之相对应;这种关系,我们称之为函数关系。,确定性的函数关系 Y=f (X),在这种关系中,变量之间的关系值是随机的,当一个(或几个)变量的值确定以后,另一变量的值虽然与它(们)有关,但却不能完全确定。然而,它们之间又遵循一定的统计规律。,不确定性的统计关系相关关系 Y= f(X)+ (为随机变量),二、相关关系的种类1、按相关的方向分为正相关和负相关,若相关关系表现为因变量与自变量的数量变动方向一致,称为正相关(positive association);反之,如果相关关系表现为因变量与自变量的数量变动方向相反,就称为负相关(negative association) 。,2、按研究变量多少
3、分为单相关和复相关,单相关即一元相关,亦称简单相关,是指一个因变量与一个自变量之间的依存关系。复相关又称多元相关,是指一个因变量与两个或两个以上自变量之间的复杂依存关系。,3、按相关形式分为线性相关和非线性相关,从相关图上观察:观察的样本点的分布近似表现为直线形式,即观察点近似地分布于一直线的两边,则称此种相关为直线相关或线性相关。如果这些样本点近似地表现为一条曲线,则称这种相关为曲线相关或非线性相关(curved relationship).,4、按相关性质可分为真实相关和虚假相关,相关分析与回归分析,回归的古典意义: 高尔顿遗传学的回归概念 父母身高与子女身高的关系: 无论高个子或低个子的
4、子女 都有向人的平均身高回归 的趋势,回归的现代意义,一个因变量对若干解释变量依存关系的研究回归的目的(实质): 由固定的自变量去估计因变量的平均值,三、回归分析与相关分析的关系,1、回归分析与相关分析是研究现象之间相关关系的两种基本方法。,相关分析:用一个指标来表明现象间相互依存关系的密切程度。,回归分析:根据相关关系的具体形态,选择一个合适的数学模型来近似地表达变量间的平均变化关系。,2、相互联系:有共同的研究对 象,相互补充。,3、区别,4、局限性,四、相关表与相关图,相关表:将某一变量按其取值大小排列,将与其相关的另一变量的对应值平行排列而成的统计表。,相关图(散点图scatterpl
5、ot):将两个变量间相对应的变量值用坐标点的形式描绘出来,用来反映两变量间相关关系的图形。,三、相关分析的主要内容(一)确定现象间有无关系存在,若有关系,计算其相关程度(二)确定相关关系的表现形式及其技术模型(三)判断因变量一般值的代表性(四)显著性检验(五)回归预测,82 简单线性相关与回归分析,一、简单线性相关系数及检验二、总体回归函数与样本回归函数三、回归系数的估计四、简单线性回归模型的检验 五、简单线性回归模型预测,一、简单线性相关系数及检验,总体相关系数 对于所研究的总体,表示两个相互联系变量相关程度 的总体相关系数为: 总体相关系数反映总体两个变量X和Y的线性相关程度。 特点:对于
6、特定的总体来说,X和Y的数值是既定的 总体相关系数是客观存在的特定数值。,(一)相关系数(correlation)的定义 一般用 表示总体相关系数,用r 表示样本相关系数。样本相关系数是用积分差进行定义与计算的,其公式如下:,实际计算时,相关系数r也可采用下列等价公式计算:,相关系数具有如下性质:(1)当 =1时,x与y完全线性相关,y与x之间存在着确定的函数关系。(2)当 时,表示y与x之间存在着一定的线性相关关系。 的数值愈大,愈接近于1时,表示y与x之间的线性相关程度愈高;反之, 的数值愈小,愈接近于0时,表示y与x之间的线性相关的程度愈低。,通常,判断的标准是: ,称为微弱相关; ,称
7、为低度相关: ,称为显著相关; ,称为高度相关。(3)当r=0时,表示y与x之间没有直接的线性相关关系,即y与x的变化无关。,(4)从定性上讲,r0表示y与x为正相关,即两者变化方向相同;r0表示y与x之间是负相关,两者变化方向相反。,使用相关系数的注意事项:,X和Y 都是相互对称的随机变量,所以相关系数只反映变量间的线性相关程度,不 能说明非线性相关关系。相关系数不能确定变量的因果关系,也不能 说明相关关系具体接近于哪条直线。,例题1: 经验表明:商场利润额与其销售额之间存在相关关系。下表为某市12家百货公司的销售额与利润额统计表,试计算其相关系数。,习题1: 家庭储蓄与家庭收入之间有一定关
8、系。现从某城市家庭中抽取12个家庭,所得月收入与月储蓄的样本数据如下表:计算其相关系数。,二、标准的一元线性回归模型 ( 简单线性回归模型),(一)总体回归函数:,回归系数,是随机误差项,总体回归直线:,关于 的标准假定:,(二)样本回归函数 根据样本数据拟合的直线,称为样本回归直线: 样本回归函数: 称为残差(residual),样本回归函数与总体回归函数的关系 相互联系, 样本回归函数的函数形式应与设定的总体回归函数的函数形式一致 。 和 是对总体回归函数参数的估计。 是对总体条件期望 的估计 残差 e 在概念上类似总体回归函数中的随机误差u。回归分析的目的: 用样本回归函数去估计总体回归
9、函数。,样本回归函数与总体回归函数的关系 相互区别,总体回归函数虽然未知,但它是确定的; 样本回归线随抽样波动而变化,可以有许多条。 样本回归线还不是总体回归线,至多只是未知总体 回归线的近似表现。 总体回归函数的参数虽未知,但是确定的常数; 样本回归函数的参数可估计,但是随抽样而变化的随机变量。 总体回归函数中的 是不可直接观测的; 而样本回归函数中的 是只要估计出样本回归的参数就可以计算的数值。,三、回归系数的估计,回归系数估计的思想:为什么只能对未知参数作估计? 参数是未知的、不可直接观测的、不能精确计算的 能够得到的只是变量的样本观测值结论:只能通过变量样本观测值选择适当方法去近似 地
10、估计回归系数。前提: u是随机变量其分布性质不确定,必须作某些 假定,其估计才有良好性质,其检验才可进行。原则: 使参数估计值“尽可能地接近”总体参数真实值,简单线性回归的基本假定,假定1:零均值假定。假定2:同方差假定。 假定3:无自相关假定。 假定4:随机扰动 与自变量 不相关。假定5:正态性假定,(三)一元线性回归模型 (一)回归系数的估计(最小平方法)(least-squares regression estimation) 通常采用残差平方和 作为衡量总偏差的尺度。,规范方程 :,总体回归系数的估计公式:,例题2: 经验表明:商场利润额与其销售额之间存在相关关系。下表为某市12家百货
11、公司的销售额与利润额统计表,试以销售额为自变量,利润额为因变量建立直线回归模型。,所求回归直线方程为: 回归直线方程表明,百货公司的销售额为零时,利润额为-0.371万元;百货公司的销售额每增加1万元,利润额就增加0.5286万元.,习题2:某市10家百货商店月人均销售额和利润率的资料如下表所示: (1)求出利润率对月人均销售额的回归直线方程。,合计,其回归系数的意义为月人均销售额为零时,利润率为0.6082万元;不符合实际.月人均销售额每增加1万元,利润率就增加4.466%。,习题3: 家庭储蓄与家庭收入之间有一定关系。现从某城市家庭中抽取12个家庭,所得月收入与月储蓄的样本数据如下表: (
12、1)拟合居民家庭月储蓄与家庭月收入的直线方程,并解释回归系数的意义。,合计,其回归系数的意义为家庭月收入为零时,家庭月储蓄将减少0.328百元;家庭月收入每增加1百元,居民家庭月储蓄就增加0.3777百元。,(二)拟合程度的评价,1、总体方差的估计,残差平方和 :,回归估计的标准误差:,证明,例题3: 以例1的资料为例计算利润额依销售额变动的估计标准误:,习题3:以习题1的资料为例计算利润率对月人均销售额变动的估计标准误:,习题4:以习题2的资料为例计算家庭月储蓄对居民家庭月收入变动的估计标准误:,2、可决系数(判定系数 ),可被解释部分,未被解释部分,记总离差平方和(SST),总离差,记回归
13、平方和,残差平方和,则可决系数:,可决系数的性质:,判定系数测度了回归直线对观测数据的拟合程度。,4、相关系数r的平方等于可决系数!,1、非负性,2、取值范围:,3、可决系数是样本观测数据的函数,它是一个统计量。,习题4:利用例1的资料计算可决系数:,可决系数的意义为:在利润额的变动中92.65%是由销售额决定的。,习题5:利用习题3的资料计算可决系数:,可决系数的意义为:在家庭月储蓄变动中92.29%是由居民家庭月收入决定的。,三、一元线性回归模型的检验,(一)回归模型检验的种类,1、理论意义的检验,2、一级检验(统计学检验),3、二级检验(经济计量学检验),(二)关于最小二乘估计量的性质:
14、,(三)显著性检验 回归分析中的显著性检验包括两方面的内容:一是对整个回归方程的显著性检验;二是对各回归系数的显著性检验。回归方程的显著性检验,就是对总体相关系数的检验;回归系数的显著性检验,主要是对总体回归系数的检验。,(一) 总体相关系数的检验,1、作原假设与备择假设,2、选择检验统计量及其分布,3、给定显著性水平,查找对应的临界值,4、作出统计决策,例题4:对例2计算的相关关系在5%的显著性水平下进行总体利润额与其销售额之间相关系数的检验。,解:,由 知,接受 ,拒绝,即在现有的显著性水平下,可以认为总体利润额与其销售额之间存在相关关系。,习题6:根据习题3的回归方程,对居民家庭月储蓄与
15、家庭月收入的线性关系的显著性进行显著性水平为0.05的检验:,(一)回归系数的显著性检验,1、作原假设与备择假设,2、选择检验统计量及其分布,其中:,3、给定显著性水平,查找对应的临界值,4、作出统计决策,习题7: 对例2进行回归系数显著性水平为0.05的检验:,习题8:根据习题2的回归方程,进行显著性水平为0.05的回归系数检验:,即居民家庭月储蓄受家庭月收入的影响是显著的.,四、一元线性回归模型预测 所谓回归预测,就是以通过了显著性检验的回归直线模型为基础,以参数估计理论为指导,依据x值估计y值及其变化范围。将已知的 代入回归直线模型中计算的对应值 可视为总体y的点预测,而对应 以一定的置
16、信度计算的y值变化范围则可视为总体y的区间预测,其预测公式为:,例题7:在例2中假定商场年销售额为250 万元,在95%的置信度下预测该商场年利润额为多少? 解:点预测,区间预测,习题9:根据习题3的回归方程,若 建立家庭月储蓄额95%的置信区间。解:,习题10、现有8个企业的月产量和生产费用资料如下表:,(1)计算相关系数(2)用最小平方法配合生产费用对月产量的回归直线模型并指出回归系数的经济含义;(3)计算估计的标准误差及可决系数(4)进行显著性水平为0.05的总体相关系数的检验及回归系数检验:(5)若月产量为7吨建立生产费用对月产量95%的置信区间。,(3)回归系数的经济含义为当月产量每
17、增加1吨时,生产费用增加12.9万元。(2分),如果两个变量之间为负相关,则回归系数和可决系数均为负。( ),习题11,第 三 节 多 元 线 性 回 归 分 析,一、多元线性回归模型,多元线性回归:研究一个因变量与多个自变量之间的线性相关关系。,用最小平方法原理,有,规范方程:,特例:二元线性回归模型及其解为:,例题:,二、复回归估计平均误差,二元线性回归估计平均误差,简捷公式:,三、复相关系数,第 四 节 非 线 性 回 归 分 析,令 ,,(1) 双曲线:,这样双曲线方程就变成线性方程了。,则有:,一、常用可线性化的曲线模型常用可线性化曲线包括以下几种:,(2)指数曲线:,两边取常用对数,则:,令,有,