1、第六章 相关分析,教学内容与要求:,1.了解相关关系的涵义与种类,掌握相关分析的基本方法,相关系数含义和计算,相关关系的判定原则; 2.了解回归分析的含义与类型,理解相关与回归分析的联系与特点; 3.掌握一元线性回归模型建立的条件、参数求解方法,回归模型的评价依据,,教学重点与难点:,重点:相关系数的计算方法,相关关系的判断,一元线性回归方程的建立与评价。 难点:相关系数的计算,一元线性回归方程的评价与分析,教学方式与学时安排,思考练习题,相关分析与回归分析的区别与联系。,什么是相关关系?与函数关系有何区别?,6.1 相关分析的意义,第六章 相关分析,6.2 相关图表和相关系数,6.3 回归分
2、析,6.1 相关分析的意义,一、相关关系的概念,变 量 关 系,函数关系,相关关系,变量之间存在确定性的依存关系,即自变量每取一个值, 就有一个唯一确定的因变量值, 可用一个数学表达式来反映。,y=f(x),现象之间不存在唯一确定的数量 依存关系。,函数关系和相关关系的联系,二、相关关系的种类,涉及的变量 (或因素)的多少,相关的表现形式,相关的方向,相关的程度,单相关,曲线相关,负相关,不完全相关,复相关,直线相关,正相关,完全相关, 多元相关, 一元相关,完全不相关,是统计分析的主要研究对象,许多现象正负相关的关系 仅在一定范围内存在。,相关程度,相关方向,相关形式,Y,X,三、相关分析的
3、意义,相关与回归都是研究两个或两个以上变量相互 关系的统计分析方法;就所解决的问题而言, 相关分析和回归分析是有差别的 。,相关分析,相关,回归,1、相关与回归分析的概念,相关分析,研究两个或两个以上随机变量之间相互依存关系程度的 统计分析方法。它从定性和定量两方面说明变量与变量 之间是有关还是无关,以及相关关系的紧密程度, 甚至要 对这种关系的紧密程度进行某种显著性检验。,回归分析,研究某一随机变量(因变量)与其他一个或几个普通变量 (自变量 )之间的数量变动关系形式的统计分析方法。 它是在肯定变量有关的情况下, 从变量对应的实际数据 出发,确定这些变量间的定量关系式, 即拟合出一个 回归方
4、程, 并利用所求得的关系式进行估计和预测。,2、相关与回归分析的联系和区别,相关分析是前提,回归分析是相关关系的继续, 是相关分析的发展。,联系:,区别:, 相关分析所研究的两个变量是对等关系, 不反映任何 自变量和因变量的关系;回归分析所研究的两个变量 不是对等的, 必须根据研究目的,先确定其中一个是 自变量, 另一个是因变量。, 对两个变量x和y来说, 相关分析只能计算出一个反映 两个变量间相关密切程度的相关系数,计算中改变x和 y的地位不影响相关系数的数值;回归分析研究两变量 具有因果关系的数学形式,当两变量因果关系不很明确 或可以互为自变量时,可分别建立两个不同的回归方程。, 相关分析
5、对资料的要求是, 两个变量都可以是随机的, 各自接受随机因素的影响;而回归分析对资料的要求是, 自变量是给定的, 因变量是随机的。,四、相关分析的内容,确定现象之间是否存在相关关系,以及相关关系的表现形式。绘制相关图表,确定相关关系的密切程度。 计算相关系数,建立相关关系的数学表达式。,确定因变量估计值的可靠性程度 。估计标准误,6.2 简单线性相关,一、相关表和相关图,1、相关表的编制分为:简单相关表和分组相关表,简单相关表,资料未分组,将自变量按照变量值大小顺序或 按照时间先后配合因变量值一一对应平行排列 而编制成的表格。,表6-1 施肥量与收获量简单相关表 单位:公斤,分组相关表, 单变
6、量分组相关表 只对自变量进行分组(视资料情况可以是单项式分组, 也可以是组距式分组), 并计算各组次数;因变量不分 组, 只计算其平均值。,表6-2 施肥量与收获量单变量分组相关表, 双变量分组相关表两个变量都分组,又称为棋盘式表,表6-3 施肥量与收获量双变量分组相关表,2、相关图的绘制相关图又称散点图或散布图,根据表6-1、6-2绘制成图6-1、图6-2,图 6-1 施肥量与收获量相关图,图6-2 施肥量与收获量单变量分组相关图,二、相关系数,1、相关系数的意义,相关系数r就是在线性相关条件下, 测定变量间相关关系密切程度及其相关方向的统计分析指标。,r是一个无量纲的系数指标,“积差法“,
7、计算公式的说明, 协方差 是积差平方和。两个变量之间有无相关 关系及相关的方向完全取决于两个变量的离差乘积 之和 。, 标准差x和y的作用:,将变量离差标准化:消除计量单位的影 响 使相关系数的绝对 值不超过1,2、相关系数计算公式, 未分组资料计算相关系数,例6.1,下表是10家百货商店每人每月平均销售额 (千元)和利润率(%)的资料,表明人均销售额和利润率之间存在高度的正相关关系, 分组资料计算相关系数,3、相关关系密切程度判断,两变量不存在线性相关,两变量存在完全直线相关,两变量存在微弱相关,两变量存在低度相关,两变量存在显著相关,两变量存在高度相关,根据50个学生学生的数学和物理学考试
8、结果进行计算,数学成绩的标准差为9.79分,物理学成绩的标准差为7.85分,两科成绩的协方差为66.6分,计算相关系数,并对数学和物理学成绩的相关方向和相关程度作出说明。,数学和物理学成绩为正相关,且是高度正相关,6.3 回归分析,回归分析就是对具有相关关系的变量之间的关系 形式进行测定,确立一个相关的数学表达式,即拟 合出一个回归方程, 以便进行估计或预测的统计 分析方法 。,回归分析类型,自变量多少:一元回归、多元回归,表现形式:线性回归、非线性回归(直线回归)、(曲线回归),一、一元线性回归分析,又称简单线性回归:只有一个自变量的线性回归,=-0.939,1、一元线性回归方程,对散点图配
9、合一条最优的直线, 以表明两变量之间具体的变动关系。,回归直线,描述这条直线的数学表达式叫回归方程,(y倚x回归方程),(x倚y回归方程),因变量估计值,纵轴截距,直线的斜率,代表自变量增加一个单位时因变量的平均增加值, 在回归分析中称为回归系数。,a、b、c、d都是待定系数,2、配合直线回归方程的前提条件, 所研究的两变量之间应确实存在线性相关关系, 而且其相关的密切程度必须是显著的。 要有一定数量的自变量与因变量的对应资料, 而且要确定哪个是自变量, 哪个是因变量。并将这 些资料编制成相关表。,3、求解参数(最小二乘法或最小平方法),要确定回归方程 =a+bx,关键是求解参数a、b,原理,
10、残差平方和,min,求解,正规方程组:,例6.2,现对10个学徒工的技术操作训练的月数x和 月产量y的数据进行回归分析, 计算如下:,n=10,35/10 3.5,697/10 69.7,31.5510.9x,回归系数的意义:,当训练时间每增加1个月,学徒工的月产量将平均增加10.9件。,根据回归方程,可给出一个自变量来估计或预测因变量 的平均可能值:,=31.55+10.96=96.95件。,若学徒工操作训练时间为6个月,则月产量,回归系数的经济含义,X每变动一个单位,Y 平均变动多少个单位,产品的单位成本(元)对产量(千件)的回归直线 方程为Y=77.37-1.82X,这意味着( ) A、
11、如果产量每增加1000件,单位成本平均下降1.82元 B、如果产量每减少1000件,单位成本平均上升1.82元 C、如果产量是1000件,则单位成本是77.37元 D、如果产量是2000件,则单位成本是73.73元 E、如果产量是1000件,则单位成本是75.55元,二、估计标准误差(回归标准差),用来说明回归方程代表性大小的统计分析指标,例6.2,现对10个学徒工的技术操作训练的月数x和 月产量y的数据进行回归分析, 计算如下:,三、回归系数与相关系数的关系,因为,所以,符号一样,已知x,y两变量的相关系数为0.8,,作业:,1、某地区家计调查资料得到,每户平均年收入为6800元,标准差为800元,每户平均年消费支出为5200元,方差为40000元,支出对收入的回归系数为0.2,求:1)计算收入与支出的相关系数2)拟合支出对收入的回归方程3)估计年收入为7300元时的消费支出额4)收入每增加1元,支出平均增加多少元,2、检查五位同学统计学的学习时间与成绩分数如下表:,1)计算相关系数2)建立直线回归方程3)计算估计标准误差,