1、六西格玛绿带培训教材 相关性分析,10-1,结束对本章节的学习后,学员将可以: 解释什么是相关分析 进行相关分析散点图相关系数常见错误,学习目的,定义:回归是确定一个响应变量(或输出)与一个或多个因变量(或输入) 之间的统计关系的方法。Y=f(x1,x2,xn),回归分析,其中:,Y是响应变量,X1到xn是因变量,10-2,定义:决定两个来自不同变量源的响应(或输出)之间线性关系的方 法。 也代表了两个变量间的线性关联程度。由一个相关系数(R)来衡量两个 变量间的联系强度,在这里-1 R 1。 按照惯例,R表示真实的系数,R表示我们的最佳估算。,相关,回归与相关,10-3,回归分析 回归分析建
2、立关于因变量与 响应变量之间关系的估计方 程式(公式)。,相关分析 量化两个变量之间的线性关 系的程度,即等式的适合性 如何?,VS,散点图,以图形方式展示每个样本的两个特性,每个坐标轴表示一个特性值:,X轴-因变量,Y轴-响应变量,散点图的目的是直观地说明两个变量之间的关系 与关联程度。,散点图-图形展示关系,10-4,用Minitab做散点图,在Minitab中,可通过下列方式做散点图: a)图形散点图 b)统计回归拟合线图,例1,某黑带想了解一化学蒸馏过程中氧气的纯度(Y)与冷凝器中的炭氢化 合物的%之间的关系。 数据在Oxygen purity. mtw 请做出散点图Oxygen pu
3、rity (Y) v s Hydrocarbon %(x),10-5,例1,Minitab:图形散点图(oxygen purity.mtw),例1,10-6,相关系数:R,10-7,属性 R值取范围从-1.0到+1.0,即-1 R 1 。 R0意味和一个正线性相关,即是Y随着X的增加而增加。 R=-1意味着一个完全负线性关系。 R=1意味着一个完全正线性关系。 R=0意味着无线性关系。,相关系数(R)有时又称为皮尔森成果,用来测定两个变量之间的关系强 度。,R=0,R=0意味着无线性关系。 R=0并不意味着无关系。,相关系数,按照惯例,p表示总体的相关系数。,r表示样本的相关系数。,在Mini
4、tab中,两个或多个变量间的相关系数(R)及其统计显著性 可以通过下列方法得到:,统计基本统计量相关,10-8,例2,从文件Oxygen purity. mtv中,测定出Oxygen purity Hydrocarbon%(X)的相关系数。,例2:Minitab的对话窗口,结论是什么?,H0:p=0(无相关性) Ha:p0(有相关性),Correlations: Oxygen purity %, Hydrocarbon % Pearson correlation of Oxygen purity % and Hydrocarbon % = 0.937 P-Value = 0.000,相关分析的
5、常见错误,收集数据范围过窄 外推法 因果归属 掩饰真正的相关或创造虚假的相关 过多的集中在相关系数上,10-10,错误1:数据覆盖范围过窄,收集的数据覆盖范围过窄,X的范围越宽就会产生更佳的估算回归线。,错误II:外推法,在数据范围以外对相关性进行外推,数据范围内的关系在其他区域内不一定适用。,10-11,错误III:因果归属,相关并不意味着因果,仅仅是两个变量间存在的关系。,错误IV:曲解数据,10-12,掩饰真实的相关或者创造虚假的相关,数据实际上是来自不同的数据来源。,错误V:过多的集中于R,过多的集中于相关系数,上图有相关系数R0.7,错误V(续),10-13,通常,人们过于把R(或R2)值作为一个“好”的相关的依据。前面的图 形说明了将数据图表化是多么重要。 但是当图表(和接下来的诊断)展示一个合法的线性关系或数学模型时 ,我们可以做出如下结论: R20.4:相关性明确存在(n25时) R20.7:我们可以使用该关系,但必须慎重(n9时) R20.9:可使用的关系存在 R20.95:关系良好,注意:这些“规则”是基 于经验的主观判断。,