1、回归分析 回归分析是数理统计的一个应用分枝,它主要研究变量与变量之间的某一种相依关系,其主要内容包括线性回归与非线性回归一元回归与多元回归我们主要介绍线性回归模型,一元回归,回归的含义 变量与变量之间的关系有两种:一种是函数关系;当一组变量取定一个值时,另一个变量也有确定的值与它对应这是一种函数关系。另一种关系不能用函数关系来描述,比如人的身高与体重之间的关系;农作物的产量与施肥量之间的关系就不能用函数关系来描述,变量可以分为可控变量与不可控变量(随机变量)在回归分析中,讨论的是随机变量与可控变量之间的关系随机变量作为因变量(响应变量),可控变量作为自变量当自变量只有一个变量时的回归分析为一元
2、回归,否则称为多元回归,假设随机变量Y与x有一元回归关系.当选定x时,Y的数学期望应为x的函数,记,回归分析的一般步骤:(1)求取试验数据(2)选取回归模型(3)对回归模型中的未知参数作估计(4)对模型进行检验(5)预测与控制,(1)求取试验数据,(2)选取回归模型,当选取的是一元线性回归函数时,其回归模型可写为,(3)对回归模型中的未知参数作估计 当选取回归模型为,(4)对模型进行检验 我们是根据经验和散点图选定模型的,模型是否切合实际,需要对模型进行检验。,(5)预测与控制,一元线性回归模型,先假定一元线性回归模型,要使L达到最大,只要等式右边的平方和的部分达到最小即可。,通过求导,并令其
3、为零,可得方程组,注意:当随机误差服从正态分布时,参数的最小二乘估计就是极大似然估计,当随机误差不服从正态分布时,参数的最小二乘估计一般与极大似然估计不同。 一元线性回归模型中回归系数的最小二乘估计为,为了对模型及模型参数进行检验,我们需要知道 估计量的分布,下面对随机误差服从正态分布的情况下给出了一些统计量的分布:,我们有,我们仅证明(1)(2)。 证明(1),证明(2),假设检验 假设检验包括参数检验和线性模型的检验。,t-检验 F-检验,r-检验(样本相关系数检验),预测与控制,我们可以得到,由预测区间可以看出:,控制:控制是预测的反问题,当因变量y在某一范围内取值时,x应控制在什么范围之内。这个问题比预测要复杂。,例:维尼龙纤维的耐热水性能好坏一般可用指标“缩醛化度”y来衡量,该指指标越高,耐热水性能也就越好。而甲醛浓度是影响缩醛化度的重要因素,在生产中常用甲醛浓度去控制这一指标。为找出它们之间的关系,现安排了一批试验,获得如下数据:(1)试确定y对x的回归关系;(2) y对x的回归关系是否显著;(3)求x=25时y的95%的预测区间.,解(1)作散点图,可发现y对x有线性回归关系,故可用线性回归建模。,(2)采用t检验,这时(3),