1、1回 归 分 析引言在现实世界中,我们经常要与各种变量打交道,有些变量存在一个共同体中,人们就需要研究这些变量之间的关系。变量间的关系,常见的有两类。一类是“确定性关系” 。如圆的周长与半径的关系,他们之间有确定的关系,可用函数形式表达,这是一般非随机性的数学、物理、化学、工程等学科中研究的问题。另一类变量有一定的关系,但其关系不能用函数形式来表达。例如,人的身高与体重的关系,一般讲较高的人体重较重,较矮的人体重轻一点,因而身高与体重有一定的关系,然而它们之间的关系不能用一个函数表达,我们称变量间的关系为“相关关系” ,它是一种不确定的关系。例:1、肥胖是现代社会人们普遍关注的一个重要问题,那
2、么体重多少才算是肥胖?这当然与每个人的身高有关。于是许多学者用直线回归的方法研究人的身高与体重的关系。2、一个公司的商品销售与其广告费有密切关2系,一般来说在其他因素保持不变的情况下,用在广告上的费用越高,它的商品销售也就会越多。但这也是一种相关关系。3、在经济学中,著名的 Cobb-Douglas 生产函数为 ,这里 分别表示为 年的ctbttKaLQtttKLQ, t产值、劳动力投入量和资金投入量, 为参数,cba,在上面取对数得 )ln()ln()ln()ln( ttt KcLbaQ也可以建立线性回归方程。回归分析就是要研究具有相关关系的变量间的统计规律性。回归分析在工农业生产及科学研究
3、中有着广泛的应用,在实验数据的处理、经验公式的寻找、产品的统计质量管理、市场预测、某些新标准的制定、自动控制中数学模型的建立、气象预报、地质勘探、医学卫生等许多领域都经常应用回归分析。一元线性回归最简单的回归分析是一元线性回归分析。3例:合金钢的强度 与钢材中碳的含量 有密y x切关系。为了冶炼出符合要求强度的钢常常通过控制钢水中碳的含量来达到目的,为此需要了解与 之间的关系。由于种种因素的影响,即使yx钢水中碳的含量相同,合金钢的强度也会不完全相同,因而它们间的关系是一种非确定性的关系。那么它们之间有没有关系?有什么样的关系?为此首先就要收集 组不同的碳含量 (%)对应的nx钢的强度 (kg
4、/mm 2)数据 。y niyii ,2,1),(本例收集的数据如下,这里 。0ni x(%) y(kg/mm2)1 0.03 40.52 0.04 39.53 0.05 41.04 0.07 41.55 0.09 43.06 0.10 42.07 0.12 45.08 0.15 47.59 0.17 53.010 0.20 56.0为了看清其规律,把 看成是平面直角坐标),(iiyx4系中的点,画出“散点图” 。接着我们可以观察散点图上点的分布规律。在本例中,这些点散布在一直线附近,但又不全在一条直线上,那么我们可以认为 与 之间的yx关系由两部分组成,一部分是由 的变化引起的x线性变化部分
5、,记为 ,另一部分是由其y 10他一切随机因素引起的,记为 :xy10在上式中,我们总假定 是一般变量,其值是可以精确测量或严格控制的, 为未知参数,10,是不可测量的随机误差,通常假定,为了对参数作区间估计与假设2)(,0)(DE检验的需要,通常还假定其服从正态分布,从而在上述假定下 。),(210xNy5对我们所获得的观测数据来讲,通常还假定各niyxii ,2,1),(间相互独立,从而可得到一元线性回n,21归的数学模型: ),(其 分 布 为独 立 同 分 布 ,各 210 0,2,1Nnixyi iii 我们今后称 为 关于 的回归xyE10)( yx函数,它在平均意义上表明了 与 之间的一种统计规律性。我们要研究的问题有:1)如何根据样本 求出niyxii ,2,1),(的估计值。若用 分别记 的点估计,10,10,10,则称 为 关于 的一元线性回归方程。xy10yx2)如何检验回归方程的可信度?3)如果回归方程方程可信的话,如何用它进行预测和控制。