1、回归分析(regression analysis) 概述回归分析是寻求成对出现的一组数值型数据之间的关系模型的一种统计工具,这咱关系模型是一条直线或曲线。回归分析就是要找到这条直线或曲线的方程,以及度量模型对数据拟合优度的判定系数 r2 和其他一些统计工具。线性回归是通过绘制数据的散布图来拟合一条最优直线。本部分将就这种最简单的回归类型展开讨沦。非线性回归是寻求与数据最优的曲线。多元回归是解决一个因变量受多个自变量影响的问题。非线性和多元回归都过于复杂,需要使用时可以寻求统计学家的帮助。 适用场合当取得一组成对出现的数据型数据时;在绘制完成数据的散布图后;当要了解自变量的变化对因变量有怎样的影
2、响时;当掌握了自变量的信息,想要预测因变量的变化情况时;当需要得到直线或曲线对数据的拟合程度的统汁测量结果时。 实施步骤线性回归可以用手工完成,但是通过计算机软件可以大大简化运算。按照软件说明逐步完成分析过程。回归分析会得到与数据最优拟合的回归直线图形以及一张统计表格,包括:回归直线的斜率。直线方程的形式是: ,m 是斜率,代表当自变量 x 增加一yxb个单位时,因变量 将随之增加一个单位。正的斜率意味着回归线是由左向右上方倾斜的;负y斜率说明回归线向下方倾斜( 的上标是用来提醒它只是因变量)估计值,而不是真实值) 。y回归直线的截距。在直绒方程中,常数 b 代表截距。它是直线与 y 轴交点处
3、 的值。得y到斜率和截距值后,就可以根据等式 画出回归线或按照给定的 x 值估计 y 的值了。x判定系数 r2。r 2 的值介于 0 和 1 之间,是对同归线与数据拟合程度的度量。如果,r21,代表直线与数据完全吻合。随着 r2 值的减小,表示拟合度越差,得到的估计值也更不准确。将 r2 看作是 y 的变动中可以用回归直线解释的那部分,因为大部分的数据点都不会准确地落在回归线上,不能用回归线解释的那部分(1r 2)是残差。置信区间,置信水平一般取 95%。就是根据之前一次或多次统计计算得到的一个区间。意味着统计的真值有 95%的可能落在这个范围之内。一个置信水平为 95%的置信区间表示的就是实
4、际的回归线有 95%可能落在空间。结果中还可能包含其他参数。可以参阅软件的用户向导或帮助功能、统计教材,或者通过统计学家了解更多的相关知识。 示例ZZ-400 生产单位为了判断产品的纯度是否与铁的含量有关,收集了一组数据。本例是第 4 章 ZZ-400 质量改进案例的一部分。他们首先绘制了数据的散布图,参阅“散布图”以及“分层法” ,随后进行了回归分析。图表 5.164 给出了所有数据构成的回归线。判定系数 r2 的值是 0.172,说明拟合性不好。根据反应器的不同将数据分组。图表 5.165 是分别对每个反应器的数据计算得到的回归线,表 5.13 给出了结果数据。表 5.13 回归分析示例反
5、应器 1 反应器 2 反应器 3斜率 0.64 1.92 1.83截距 99.47 100.1 99.23判定系数 r2 0.105 0.880 0.858反应器 2 和反应器 3 的回归线拟合性良好。回归线两侧的虚线表示的是置信区间的边界。注意看它们比所有数据的置信区间窄了多少。反应器 1 的回归线拟合性不好,置信区间很宽。因此从散布图中可以看出,反应器 1 的情况与其他反应器有所不同。 注意事项回归分析得到的是因变量随可控的自变量变化的模型。两个变量中哪个放在 x 轴哪个放在 y 轴,将会对结果产生影响。如果将变量对调,会得到不同的结果。牢记回归分析是用变量x 预测变量 y,所以要认真考虑
6、如何分配变量。相关分析与回归分析不同,它是研究两个变量之间的相关程度,而不是估算与数据吻合的直线模型,详情请参阅“相关分析法” 。对于线性回归,r 2 值等于零说明变量 x 和 y 没有线性关系,贯穿数据点的水平线是最理想的结果,但有时曲线可能会更好地描述两者的关系。因此,通常应该先观察数据的散布图,根据数据点的分布情况再选择使用线性或非线性回归。先观察散布图的另一个原因是即使分布特征完全不同的数据,也可能得到相同的统计结果。通过观察散布图还可以发现偏离很远的点以及其他可能歪曲统计计算过程的分布特点,保证及时将其排除。回归分析通常使用“最小二乘法”来寻找最优的拟合模型。首先计算残差数据点与回归
7、线的垂直距离,然后取所有残差值的平方和。拥有最小和值的直线就是拟合最优的回归线。如果在散布图中存在很好的相关性,但并不表示变量 y 的变化是由变量 x 引起的,那么可能是变量 y 引起变量 x 变化的,或者存在同时影响两个变量的第三个变量。如果应用散布图得到的回归图像没有显示出变量间的关系,考虑自变量 x 的变化范围是否足够大,有时相关性不明显正是因为数据覆盖的范围不够宽而造成的。相反,还要注意不能超出回归分析时所使用的数据范围来估算 y 值,一旦过了这个范围就可能得到完全不同的结果。置信区间的边界是曲线,并不意味着回归线也是曲线。所有可能的回归线在数据中心处很接近,而在 x 的极值处彼此远离。END