1、 回归分析是考察两个变量之间统计联系的一种重要 方法,它在许多领域中都有极其广泛的应用。本章 主要介绍回归分析中最基本的部分 (线性)回 归分析,内容包括一元(线性)回归分析与多元 (线性)回归分析,以及某些可以线性化的非线性 回归分析问题,回归分析的基本形式仍然是估计与 检验。因此,不妨把本章的内容视作估计与检验方 法在特殊的一类统计问题中的应用。一个问题中若干变量之间的关系可以用函数关系 来描述但是,在实际问题中,需要考察的那些 变量之间往往并无确定的函数关系;有时即使理 论上存在某种确定的函数关系,但由于具体观测 不可避免地会带来误差,因此它们之间的关系仍 呈现出不确定性函数关系表达的是
2、变量之间数量上的确 定性关系,设x为自变量,y为因变量,则x与y 之间的函数关系为: () y fx 例 1:某保险公司承保汽车x万辆,每辆保费 为 1000 元,如果记保险公司的承保总收入为 y ,则 y 与x之间表现为一种确定性的关系: x y 1000 变量之间具有密切关联而又不能由一个 或若干个变量唯一确定另外一个变量, 这样 的一种联系称为变量之间的相关关系.例如,父亲身材较高时儿子的身材也较高,但是 父子身高之间的关系不能用一个确定的函数关系 来表达又如,人的血压与年龄之间有密切的关 系,但是两者之间的关系不能用一个确定的函数 关系来表达在数理统计中,我们把变量之间的不确定关系 称
3、为相关关系回归分析是研究变量之间相关 关系的数量表示的一种重要方法。, , xY Yx Y Y 变量之间呈现相关关系是因为变量本身具有随机 性. 本章研究这些变量中仅含一个随机变量的情形. 假定我们要研究两个变量 与 之间相关关系的 数量表示 其中 是一个随机变量.当自变量 确定 之后因变量 的值并不跟着确定 而是按一定的统 计规律(即随机变量 的分布)取值. , , , , x YE Y x EY x x YE Y x y yfx 概率论中简化处理随机变量的常用方法是求其 数学期望.因此 我们来研究自变量 与因变量 的均值 之间的关系.当自变量 的值给定 时 相应的均值 跟着确定 即 与给定
4、 时 的均值 之间存在一种函数关系 记 这个函数关系为 并称它为回归函数. , xYE Y x Y 回归函数反映了自变量 与因变量 的均值 之间的函数关系 因此它近似地描述了自变量 与 因变量 之间的数量关系. 01 01 1 01 01 , , , , , 0 , fx yx EY x Yx E 回归函数 是未知的 为了数学上处理的方便 首先假定回归函数是线性的即 其中 待定 称 为这个一元线性回归函数的回归 系数.也即 引进随机误差项 那么 自变量与因变量之间的相关关系可以表示成 其中 是随机变量 体现了自变量确定之后因变量所呈现的不确定性.2 22 01 01 2 01 ( 0 ,) ,
5、 ( ,) , , ,0 . N YN x 通常假定随机变量 即 其中 均未知11 01 1 2 1 2 01 (,) , (,) , (,) , ,1 , , (0, ), 1, , , , , ( ,) ,1 ,. 假定我们对这一组变量 作了 次观测 得到 组 数据 那么有 进一步假定随机误差 相互独立且每一个 都 服从 由正态分布性质可知 是相互独立的随机变量且 nn ii i ni n ii xY n n xy xy yxin Nin YY YN x i n2 01 1 11 1 , , , , , , , , , , n nn n Y YY yy xx YY Y 用数理统计的语言来描
6、述即为: 是正态总体 总体参数 有三个 它们是 是来自该总体的样本 而 是样本观测值 是给定的自变量的取 值.如何根据样本 所提供的信息对总体 中所含 未知的量作统计推断便构成了一元线性回归分析问题的 基本内容.(a) 函数关系 0 y x y x 0 (b) (线性)统计关系 () yfx () Yfx 种类 一元相关 多元相关 负相关 正相关 线性相关 曲线相关 x y 正相关 x y 负相关 x y 曲线相关 x y 不相关例 2 城镇居民的收入与消费支出之间有很大的关 联,居民的收入提高了,消费也随之潇洒,但居民的 收入不能完全确定消费,人们的消费支出受到不同年 龄段的消费习惯的影响,
7、也受到不同消费理念的影响。 因此居民的收入x与消费支出 y 就呈现出某种不确定 性。 我们将上海市城镇居民可支配收入与支出的数据 (1985 年2001 年)用散点图表示,可以发现居民的 收入x与消费支出 y 基本上呈现线性关系,但并不完 全在一条直线上。 附数据与图形。 年份 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 总平均 1075.2 1293.24 1436.88 1723.44 1975.2 2181.6 2485.56 3009.12 4277.4 586
8、8.48 7171.91 8158.74 8438.89 8773.1 10931.6 11718.01 12883 人均消费性支出 991.8 1170.24 1282.08 1648.44 1811.88 1936.2 2166.96 2509.44 3530.04 4668.96 5828.12 6763.12 6819.94 6866.41 8247.69 8868.19 9336上海市市居民家庭人均可支配收入 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 0 2000 4000 6000 8000 10000 12000 1
9、4000 总平均 人均消费性收入 系列1年份 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 总平均 1075.2 1293.24 1436.88 1723.44 1975.2 2181.6 2485.56 3009.12 4277.4 5868.48 7171.91 8158.74 8438.89 8773.1 10931.6 11718.01 12883 人均消费性支出 991.8 1170.24 1282.08 1648.44 1811.88 1936.2 2166.
10、96 2509.44 3530.04 4668.96 5828.12 6763.12 6819.94 6866.41 8247.69 8868.19 9336一元线性回归函数(方程)为: 356 73 . 0 x y “回归”名称的由来,统计史上一般归功 于英国生物学家兼统计学家F.高尔顿 (F.Galton,1822-1911)及他的学生现代统计学 家的奠基者之一K.皮尔逊(K.Pearson).这1078对夫妇平均身高为 68 x 英寸,而 子代平均身高 69 y 英寸 他们在研究父母身高与其子女身高的 遗传问题时,观察了1078对夫妇,以每对夫 妇的平均身高作为x,而取他们的一个成年 儿
11、子的身高作为y,将结果在平面直角坐标 系上给出散点图,发现趋势近于一直线,进一步研究发现,一般来说身高超过平均值的父代 其子代的平均身高将低于父代的平均身高,而身高 低于平均值的父代,其子代的平均身高将高于父代 的平均身高,即子代的身高有回归的趋势. 由此经验方程可知, 父代身高每增加一个单位, 其 成年儿子的平均身高只增加0.516个单位, 它反映 了这种“回归”效应. 33.73 0.516 : Yx 计算得回归直线 (单位 英寸)尽管“回归”这个名称的由来具有其 特定的含义,人们在研究大量的问题中变 量x与 y 之间的关系并不总是具有 “回归” 的含义,但用这个名词来研究x与 y 之间 的统计关系也是对高尔顿这位伟大的统计 学家的纪念。