1、单变量回归,目的: 介绍作为实证模型建立方法的回归分析,以模拟具有连续响应变量“ Y” 的过程。(定义:实证基于观测值或事实),目标: 确定何时使用回归,以及为什么使用。 理解使用回归方法构建一个连续“X”变量与连续“ Y”响应变量的关系模型。 在Minitab中应用回归方法,根据数据拟合一条直线。在给定X的情况下,用拟合的直线方程式预测“ Y”。 了解确定模型是否为所给定数据的最佳模型的数学方法。 说明并理解确定模型是否为所给定数据的最佳模型的图形方法。,单变量回归,1、什么是回归? 描述“ Y”与“X”关系的数学方法 创建工序的“模型”。 Y=b0+b1x+e 其中: b0为Y截距b1为直
2、线斜率e为模型的误差项 2、为何要使用回归?寻找潜在的关键少数“ X”预测“ Y” 优化“Y” 确定如何设置“ X”以优化“ Y”3、何时使用回归?筛选被动数据(历史或基准数据),以找到潜在的关键“ X” 危险!不要使用被动数据得出最终结论。还要继续进行DOE(试验设计)记住被动数据是历史数据;这种关系当前可能并不存在。 分析DOE(试验设计)的结果,回归是一种必须谨慎使用的强有力的工具。,回归寻找“Y”与“X”关系的方法,单变量回归,我们可能对独立变量(X)和响应变量之间的关系感兴趣。表示它们之间关系的散点图可能如下所示:,假定真正的关系为: 线性关系存在 “ b0”(常数)和“ b1”(系
3、数)为固定、但未知的参数 “ X” 为独立变量 “ Y” 为观测的响应值 “ e” 为误差。常见的误差假设有: 平均值为0.0 不相关 正态分布 误差不存在型式的分布,Y,i,Y = bo + b1 * X + ei i,收集数据 以估测方程的最佳方法是什么?,“ b0”和“ b1”的估测值是多少?,这是否是正确的函数形式(直线)?,关系是否具有统计显著性(不是偶然出现)?,误差“ ei”有多大?,与拟合方程相关的问题有:,要使估计的斜率误差最小,将观测值的1/2置于“ X”的下限,将其它1/2置于上限,并使独立变量在广范围内取值。 这适用于Y值高度变化、独立变量的范围较小、而且它们之间的关系
4、预期为直线的情形。,要确定关系的形式(是直线还是曲线?), 采用两级以上的独立变量。如果数据高度变化,常常采用3个级别。,最好是以随机顺序收集数据,而不要以低值的“ X”开始然后逐渐递增 另一个随时间变化的可能影响工序。,收集数据,在Minitab中打开新工作表,并在C1和C2中输入以下数据:,举例:您在尽力优化油漆烤箱的性能。一种理论称鼓风机风扇速度影响油漆中溶剂的蒸发。您在尽力通过下列数据证明这种关系的存在。,Minitab的单变量回归,看上去是线性!,1) 始终首先将数据制图,GraphPlot,单击“ OK”运行,2) 运行数据的回归分析,自变量,单击 Graphs,单击 Storag
5、e,StatRegressionRegression.,(参见下页的子对话框 ),并,此对话框用于生成残差(误差)图 采用这些图形检验您的模型中有关误差的假设单击此框,指明您想看的图形,单击 OK, 然后单击对话框中的 Storage 按钮,单击 Fits 和 Residuals ,以在数据窗口存储信息,点击 OK 两次,“ X” 变量的p值 - 速度Ho: 斜率= 0Ha: 斜率 = 0或者,另一种表达方式:Ho: “ X” 不显著Ha: “ X” 显著,会话窗口包含分析结果.,接受Ha,无法拒绝Ho,常数的p-值H0:直线通过原点(0,0)(0速度=0蒸发) Ha:直线不通过原点(0,0)
6、,(“Ctrl-M” 移至会话窗口,s: 残差(误差)的标准差。残差为观测值预测值。换句话说,指观测点至回归方程式中描述的拟合线的距离。(对于优秀的模型,此值应较小)s = MS(error)1/2R-Sq:由拟合线“ 解释”的总变差的百分数。由“ X”解释的变差。(对于优秀的模 型,此值应较大) R-Sq(adj): 对过于拟合情况(方程式中的变量过多)的调整,它将包括模型中的项数与观测值的个数进行对比其中 n = 观测值数量p =模型中项数,包括常数,R2越大,模型对工序模拟得越好,对于良好的模型,该值应接近R2值,该值越小 (误差的大小),模型越好,通过查看R-Sq, R-Sq(adj)
7、,s和p值 来评估模型,SSregression:由模型中的“ X”而解释的响应变量“ Y”的变差。每一X值对应的模型预测值和Y的总平均值之差的平方和。 SSerror: 未被解释的“Y”的变差。每个数据点的Y观测值和该数据点Y的预测值之差的平方和。 SStotal: Y值相对其平均值的总变差。,误差项相对总数应很小,p-值应 0.05,以表示统计显著性(良好拟合的方程式),回归项(的SS 和 MS) 应比误差项的 (SS 和 MS)大,FITS指“ Y”的预测值,即根据回归方程式计算出的与“ X”值相对应的Y值。C3=0.069+0.00383 C1 (会话窗口中的回归方程式) 或者响应变量
8、的预测值= 0.069+0.00383 (速度) 残差为误差。残差的出现说明模型显示的数据有误差。(每个点的实际响应变量Y值减去其预测值(拟合值)。因此:,数据窗口将出现两个新栏 “FITS1” and RESI1”,按 Ctrl-d 返回数据窗口,C4 = C2 - C3,残差的平均值始终为0.0残差应为正态分布 残差应随机分布。残差存在的型态可能指出所选择的模型不对。 型态举例: 曲线(起点低,逐渐上升,然后下降)随数据收集的时间而变化不等变差(一般情况下,值越大,变差越大)一个或两个极端值,改进不良拟合的几种方法: 调查非同寻常的数据,它可能是错误,也可能是您的研究中最重要信息。拟合不同
9、的方程式 (可能不是线性关系)转换Y (对数,平方根,倒数,yk.)转换“ X”变量(对数,平方根,倒数),残差图 - 检查回归模型“ 优劣”的诊断工具,用“ Scrtl-Tab” 键滚动窗口,直至找到残差图,不象是 钟形曲线.,注:此例中的样本容量较小(10个)。尽管残差直方图往往能够说明问题,但在此例中数据不足,难以得出结论。,残差应正态分布:,检查残差:,如果型态较明显,单变量线性模型可能不是所具有的 数据的最佳拟合,或者说,还有其它的关键“ X”。,这些误差的分布相当随机,残差应为平均值为0.0的正态分布,误差必须在平均值0上下随机分布。,回归分析也可用图形表示!,StatRegres
10、sionFitted Line Plot,单击“ Options”,单击这些选项以在 图形输出窗口显示更多的信息,“ 拟合线图”提供: 会话窗口中的回归分析 显示运用最小二乘法原理拟合直线*图 显示置信区间(C.I.)和预测区间 (P.I.)图,单击两次“ OK”,置信区间和预测区间,C.I. = 置信区间 (95%置信度表示所有数据的平均值都位于此带内)P.I. = 预测区间 (95%置信度表示单个数据点位于此带内),置信带,预测带,会话窗口中的信息与早期生成的信息相同,无法否定Ho:,接受Ha:,结论:我们已经找到潜在的关键“ X” 速度 根据散点图、及残差图(无型态)得出结论,线性模型拟
11、合良好。 拟合有多好?给定速度来预测蒸发率,为此目的,这个模型应该可以接受 (基于:R2=90.5%,以及较小误差项(S=.16)。如果工序非常关键,应使用更多的数据。然后,可以建立误差分布更接近正态的回归模型。,您相信我们的家电所占据的展示厅面积的大小会影响销售量。您已经收集了过去12个月内,多个零售点销售量与总的占地面积方面的数据。现在,您希望分析这些数据,看占地面积是否确实与年销售量存在某种关系。,在Minitab输入以下数据:,应用您所学的单变量回归方法。准备好解释您的答案、以及支持您的结论的结果。,($K) (平方英尺),课堂练习:,在进行回归之前,将“ Y”与“ X”的数据画图您首
12、先需要知道哪种模型合适。回归可用于被动数据,但一定要谨慎,因为它不是一个受到控制的试验。在采用回归方法得出有关被动数据的结论之前,一定要进行 DOE。观察 残差与拟合值图,以集中精力于您的模型可能存在的潜在问题。借助残差图来判断“ 拟合的优劣”。采用拟合线图,通过数据创建一个回归线图形,并确定模型的置信区间和预测区间。,关键概念,附录,回归术语,r: 多重回归的相关系数(r)。越接近+/-1,模型拟合越好。 0表示无线性关系。R-Sq: 相关系数的平方(R2)。R2的值越接近100%,说明可能存在关系,由模型解释的变差的百分比越高。R-Sq(Adj): 在过度拟合情况下对R2的调整(将模型中的
13、项数考虑在内)。估计值的 数据相对预测“ 表面”的标准变差。 标准误差 s = MS误差1/2回归均方 模型总体“ 之间”变差的估测。 (MS回归) MS回归= SS回归/ DF回归 (DF=自由度)F-比率: “ F”统计量。数值大表示模型可鉴别因素(X)与因变量Y值之间的关系。F=MS回归/MS误差p-值: 接受“存在差异”时,发生错误的机率。p值0.05说明无法得出存在差异(显著)的结论。模型不是“好”模型的机率。“好”表明找到了因素X与响应变量Y之间的关系。,(X,i,- n X,- X),- Y),- X) (Y,- Y) = b1(X,最小平方线通过(X, Y): (Y,回归术语
14、(续),和经常用于表示总体值。“ b0”“ b1”是从数据中得出的总体值。,选择“ b0”“ b1”,使误差平方和为最小。,“ 最小平方”:,最小化:,取与“ b0”和“ b1”相关的偏导数,并使导数为0.0。,i,i,- X),(X,i,i,斜率为 b1 =,- = -,X,i,2,2,2, (ei2) = (Yi - b0 - b1 Xi)2,计算系数的置信区间 (斜率),会话窗口中的回归方程式为:蒸发率 = 0.069 + 0.00383 速度,斜率估算值,0.00383为根据数据得出的直线斜率估测值。由于它是估测值,我们知道实际值位于可能取值的范围内 - 置信区间。斜率的置信区间可根据
15、下列方程式计算: 估算值 +/- (t df, )(估计值的标准误差),斜率估计值标准误差在StDev栏中查找:0.00044(上舍入) t值是使用模型中误差项的自由度(8)以及双边检验的a0.05而从T表中获得的结果:t=2.31,斜率的95%置信区间是 : 0.00383 +/- 2.31(0.00044) (0.00281, 0.00485),课堂练习答案,首先将数据制图.GraphPlot,占地面积和年销售量看上去呈线性关系,下一步,运行回归功能得到模拟方程式 不要忘记保存残差并创建残差图,这里“ R-Sq”的大小对于这两种变量之间的关系大概可以接受 (商业质量过程具有大量无法控制的 噪音) “ R-Sq(adj)”接近R-Sq,同样属于良好,首先查看会话窗口,此直方图并不是正态分布。试确定分布呈如此形状的原因(数据输入错误,数据太少等),通过查看残差图分析模型,残差没有一定的型态,结论:占地面积对销售量有影响。同时,可能还有其它关键的 Xs需要考虑,并添加到方程式中。以下步骤:找出其它潜在的关键“ X”。优化占地面积与销售量之间的关系。,