1、第八章 相关与回归分析,学习内容,相关分析概述 简单线性相关分析 回归分析与一元线性回归模型,第一节 相关分析概述,学习目标,相关分析的概念(理解) 相关关系的种类(掌握) 相关分析的作用(了解) 相关分析的主要内容(理解),一、相关分析的概念,相关分析是研究一个变量与另一个变量或另一组变量之间相互关系密切程度和相关方向的一种统计分析方法。,事物间存在普遍的联系与相互影响,如受教育水平与工作后的收入、预防疾病支出与疾病的发生率等,这种依存关系可以用数量关系表现出来。有两种类型: 函数关系(确定性依存关系) 相关关系(非确定性依存关系),相关分析的概念,变量间存在完全对应的相互依存关系,当自变量
2、的值确定时,因变量就有一个完全确定的值和它相对应。,销售额=销售量 单价,确定的关系,函数关系,函数关系(几个例子),某种商品的销售额y与销售量x之间的关系可表示为 y = px (p 为单价) 圆的面积S与半径R之间的关系可表示为S=R2 企业的原材料消耗额y与产量x1 、单位产量消耗x2 、原材料价格x3之间的关系可表示为y = x1 x2 x3,相关分析的概念,变量间客观存在的,在数量变化上受随机因素影响的,不严格,不确定的相互依存关系。,家庭收入与恩格尔系数: 家庭收入高,则恩格尔系数低。,非确定的关系,相关关系,相关关系(几个例子),子女身高y与父母身高x之间的关系 收入水平y与受教
3、育程度x之间的关系 粮食单位面积产量y与施肥量x之间的关系(降雨量、温度) 商品的消费量y与居民收入x之间的关系 商品销售额y与广告费支出x之间的关系,相关关系与函数关系的区别与联系,相关关系与函数关系的区别与联系,联系:函数关系通过相关关系表现出来相关关系需要用函数关系表述式来描述,相关关系的特点,相关关系研究的两个变量是对等的 两个变量之间只能计算出一个反映相互关系密切程度的相关系数,改变自变量与因变量的位置,不改变数值 相关分析中两个变量均为随机变量,单相关两个变量之间的相关 复相关一个变量与多个变量之间的相关关系 偏相关一个变量与多个变量相关,假定其他变量不变,仅考虑与其中一个变量之间
4、的相关关系,涉及变量的多少,二、相关关系的种类,相关关系的表现形式,直线(线性)相关曲线相关,二、相关关系的种类,相关关系的方向,正相关自变量与因变量变化方向一致 负相关自变量与因变量变化方向相反,二、相关关系的种类,二、相关关系的种类,完全相关不完全相关不相关,相关关系的密切程度,三、相关分析的作用,研究经济现象之间的相关形式、方向和程度对经济现象进行推算和预测用于补充缺少的资料,四、相关分析的主要内容,现象间有无依存关系,相关关系的表现形式是什么,判定相关关系的密切程度与方向,如 有,曲线还是直线,相关分析的方法选择,相关关系描述的是事物之间的【 】 A.因果关系 B.非确定性数量对应关系
5、 C.互为因果关系 D.时间和次数B,课堂练习,两个变量之间的相关关系称为( ) A、单相关 B、复相关 C、偏相关 D、正相关A,课堂练习,当变量X按一定数值变化时,变量Y也近似地按固定数值变化时,这表明变量X和变量Y之间存在着( ) A、完全相关关系 B、复相关 C、直线相关 D、完全不相关A,课堂练习,下列关系中,属于正相关关系的有( ) A、合理限度内,施肥量与平均亩产量之间的关系 B、产品产量与单位产品成本之间的关系 C、商品的流通费用与销售利润之间的关系 D、流通费用率与商品销售量之间的关系 A,课堂练习,下列现象中属于相关关系的有( ) A、压力与压强 B、现代化水平与劳动生产率
6、 C、圆的半径与面积 D、身高与体重 E、机械化程度与农业人口 BDE,课堂练习多选,相关关系与函数关系的区别与联系,主要体现在( ) A、相关关系是一种不严格的依存关系 B、函数关系可以用一个数学表述式精确表达 C、函数关系中各现象均为确定性现象 D、相关关系是现象之间具有随机因素影响的依存关系 E、相关关系中现象之间仍可以通过大量观察法来寻求其变化规律 ABCDE,课堂练习多选,第二节 简单线性相关分析,学习目标,相关表(理解) 相关图(理解) 相关系数(掌握),一、相关表,表现现象之间相关关系的一种统计表。 一般以x为自变量,y为因变量,在表格中一一对应地排列。 可以初步反映相关关系的形
7、式、密切程度和相关方向。 可分为简单相关表和分组相关表两种。,相关表,生产性固定资产与工业总产值的相关表,简单相关表,按自变量分组,计算各组中的次数与因变量的组平均数。,分组相关表单变量分组表,相关表,对自变量、因变量都进行分组,交叉列表,并列出两种变量的共同次数。又称盘式相关表。,分组相关表双变量分组表,木材运量x,1-11 11-21 21-31 31-41 41-51 合计,运材成本 y,16-21 11-16 1-11 合计,2 57,1 3 3 7,4 3 7,1 1 2,1 1,3 13 8 24,相关表,二、相关图,又称散点图,横轴为自变量,纵轴为因变量将对应的变量值用坐标点描绘
8、出来。 可以判断两变量之间有无相关关系,方向和程度如何。,相关图,x,y,强正相关,x,y,弱正相关,相关图,x,y,强负相关,相关图,x,y,弱负相关,相关图,x,y,非线性相关(曲线相关),相关图,x,y,不相关,相关图,三、相关系数,反映两个变量之间直线相关关系密切程度的统计分析指标。,协方差(covariance):两个变量与其均值离差乘积的平均数,是相互关系的一种度量。,相关系数,协方差为大的正值时,表示强的正线性相关关系。,协方差接近于零时,表示很小或没有线性相关关系。,相关系数,协方差为大的负值时,表示强的负线性相关关系。,相关系数,相关系数,相关系数:协方差与自变量、因变量标准
9、差乘积的对比值。,相关系数,积差法,但此公式需要先有各变量的平均值,当均值计算中有保留时,计算结果将会有误差。影响准确性。,约掉共因子/n 后,相关系数,进一步推导,相关系数,同理,相关系数,相关系数,人均销售额x 利润额y x2 y2 xy,6 5 8 1 4 7 6 3 3 7 合计50,12.6 10.4 18.5 3.0 8.1 16.3 12.3 6.2 6.6 16.8 110.8,36 25 64 1 16 49 36 9 9 49 294,158.76 108.06 342.25 9.00 65.61 265.69 151.29 38.44 43.56 282.24 1465.
10、00,75.0 52.0 148.0 3.0 32.4 114.1 73.8 18.6 19.8 117.6 654.9,某地区居民货币收入和社会商品零售额资料如下,试计算其相关系数,课堂练习,相关系数的特点: 只能判断两个变量之间是否存在直线相关关系。 两个变量之间的相系系数只有一个。 取值范围在1和1之间。正值为正相关,负值为负相关,为表示不相关。其绝对值在.以下为微弱相关其绝对值在0.3和0.5之间为低度相关其绝对值在0.5和0.8之间为显著相关其绝对值在.以上为高度相关,相关系数,如果相关系数的数值为-0.78,这种相关关系属于( ) A、正向显著线性相关 B、正向高度线性相关 C、负
11、向显著线性相关 D、负向高度线性相关 C,课堂练习,相关系数的计算公式可写成( ) A、 B、C、 D、A,课堂练习,收入与消费之间存在着相关关系,若两者的相关系数为0.98,则两者关系属于( ) A、高度正相关 B、显著正相关 C、单相关 D、复相关 E、偏相关 AC,课堂练习,第三节 一 元 线 性 回归分析,学习目标,回归分析概述(理解) 一元线性回归模型的建立(理解) 参数的最小二乘法估计(掌握) 判定系数(理解) 估计标准误差(了解),回归分析 (回归的意义),回归的古典意义:高尔顿遗传学的回归概念父母身高与子女身高的关系:无论高个子或低个子的子女都有向人的平均身高回归的 趋势,回归
12、分析 (回归的意义),回归的现代意义:一个因变量对若干解释变量依存关系的研究 回归的目的(实质):由固定的自变量去估计因变量的平均值,一、回归分析概述,把两个或两个以上变量之间的相关关系加以模型化,求出回归方程,并据以进行估计推算,这种方法在统计学中成为回归分析。,1、概念,回归 分析 分类,按自变量个数分类,一元回归简单回归,多元回归复回归,按方程式特征分类,线性回归,非线性回归,一 元线性回归,2、分类,两变量之间不是对等的关系,必须根据研究目的和研究对象的性质,正确确定出自变量和因变量。 回归分析中的回归方程,是利用自变量的给定值来推算因变量值的数学模型,它反映变量之间具体的变动关系。,
13、3、特点,改变自变量与因变量的地位,会产生不同的回归方程。 直线回归方程中的回归系数也有正负号,正号表示两变量之间的变动方向相同,为正相关关系;为负号表示两变量之间的变动方向相反,为负相关关系。 回归分析中的自变量是给定的数值,不是随机的,而因变量是随机的。,3、特点,(1)联系 相关分析是回归分析的基础和前提。回归分析是研究相关关系的一种方法,用这种方法研究一个因变量对于一个或多个自变量的依存关系.,4、相关分析与回归分析的区别与联系,(2)区别,二、一元线性回归模型的建立,若两变量存在线性关系(散点图近似一条直线),可设估计模型为:,一元线性回归线的可能形态,截距,斜率,a、b为待定参数,
14、其中b称为回归系数,一元线性回归模型的建立,偏差,a、b值的估计直接关系到模型的回归效果,一元线性回归模型的建立,三、参数的最小二乘估计 (method of least squares ),德国科学家Karl Gauss(17771855)提出用最小化图中垂直方向的误差平方和来估计参数 使因变量的观察值与估计值之间的误差平方和达到最小来求得 a 和b 的方法。即,用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小,Karl Gauss的最小化图,x,y,(xn , yn),(x1 , y1),(x2 , y2),(xi , yi),计算公式,在回归直线y=a+bx
15、中,b表示当x增加一个单位时( ) A、y增加a B、x增加b C、y的平均增加量 D、x的平均增加量 C,课堂练习,一元线性回归模型的参数有( ) A、1个 B、2个 C、3个 D、3个以上B,课堂练习,工人工资y(元)依劳动生产率x(千元)的回归方程为y=10+70x,这意味着,如果劳动生产率 【 】 A、等于1000元,则工人工资为70元 B.每增加1000元,则工人工资增长80元 C. 不变,则工人工资为80元 D.增加1000元,则工人工资平均提高70元 E.减少500元,则工人工资平均减少35元 DE,课堂练习,课堂练习,课堂练习,根据上表数据:,则:社会商品零售额y对居民货币收入
16、x的直线回归方程为:1.3885+0.7778x 这个一元线性回归方程的意义是,当居民货币收入每增加1亿元时,社会商品零售额平均增加0.7778亿元。,四、判定系数回归直线的拟合优度:回归直线与各观测点的接近程度。各观测点离回归直接越近,说明直线对观测点的拟合优度越好。 评价拟合优度的两个统计量:判定系数和估计标准误差。 回归直接拟合优度的实质:是回归方程误差大小的问题。,偏差,因变量 y 的取值是不同的,y 取值的这种波动称为偏差。偏差来源于两个方面 由于自变量 x 的取值不同造成的 除 x 以外的其他因素(如x对y的非线性影响、测量误差等)的影响 对一个具体的观测值来说,偏差的大小可以通过
17、该实际观测值与其均值之差 来表示,误差分解图,x,y,误差平方和的分解 (误差平方和的关系),SST = SSR + SSE,总平方和 (SST),回归平方和 (SSR),残差平方和 (SSE),误差平方和的分解 (三个平方和的意义),总平方和(SSTtotal sum of squares) 反映因变量的 n 个观察值与其均值的总误差 回归平方和(SSRsum of squares of regression) 反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和 残差平方和(SSEsum of squares of error) 反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和,判定系数R2 (coefficient of determination),回归平方和占总误差平方和的比例,反映回归直线的拟合程度 取值范围在 0 , 1 之间R2 1,说明回归方程拟合的越好;R20,说明回归方程拟合的越差 判定系数平方根等于相关系数,五、估计标准误差估计标准误差也是用来反映回归方程代表性大小的统计分析指标,也就是实际值与估计值的平均误差。 也叫回归标准差。 其理论计算公式,本章小结,