1、散布图(Scatter Diagram),目录,一、散布图概述 二、散布图的绘图步骤 三、作散布图的注意事项 四、散布图的相关检验 五、相关系数及其检验 六、练习,1、定义: 描述两个因素之间相关关系的图形,称为散布图,又叫相关图 2、相关的概念:变量之间存在的关系,有下列几种还情况。 完全相关关系:这种关系一般可用一个不变的数学公式来表达。 相关关系:变量之间存在密切关系,但又不能由一个(或几个)变量的数值精确地求另一变量的数值,称这类变量的关系为相关关系。 不相关:事物之间没有关系。,一、散布图概述,3、散布图的用途: 用来发现和确认两组数据之间的关系并确定两组相关数据之间预期的关系。 通
2、过确定两组数据、两个因素之间的相关性,有助于寻找问题的可能原因。,一、散布图概述,二、散布图的绘图步骤,案例:表1-6 列出了添加剂的重量与产出率的数据,请根据这些数据描绘出散布图并进行分析。,表1 添加剂“A”的重量和相应的产出率,分析对象的选定,可以是质量特性值与因素之间的关系、质量特性值与质量特性值之间的关系、因素与因素之间的关系。本例选定的分析对象是添加剂的重量与产出率的关系,它们是因素与质量特性值之间的关系。2、收集数据,填入数据表。数据一般要在30组以上,且数据必须是对应的,并记录收集数据的日期、取样方法、测量方法等有关事项。案例收集了30组对应数据,1、选定分析对象,二、散布图的
3、绘图步骤,为便于分析相关关系,两个坐标数值的最大值与最小值之间的范围应基本相等。见表2。 若分析对象的关系,属于因素与质量特性值之间的关系,则X轴表示因素,Y轴表示质量特性值。,3、在坐标纸上建立直角坐标系,二、散布图的绘图步骤,Y,表2 散布图的横、纵坐标的范围应基本相等,把数据组(X,Y)分别标在直角坐标系相应的位置上。 如两组数据相同,其点子必重合,则用或表示; 如三组数据相同,则用表示。,4、描点,二、散布图的绘图步骤,产出率百分比,3,当散布图上出现明显偏离其他数据点的异常点时,应查明原因,以便决定是否删除或校正。所谓异常点就是散布图上出现远离群点的点。对于这种点的出现,要查明原因。
4、一般来说产生这种现象的原因是由于测量的误差、数据记录错误或操作条件的变化等。如查清确实属于上述等原因造成的,则应将这些点删除。如果原因不明,就不能删除,变量之间很可能包含着我们认识不到的规律。,4、描点,二、散布图的绘图步骤,5、记入必要信息,填写散布图标题、数据来源及其它必要事项。,三、作散布图的注意事项,1、明确在什么范围内相关当X在很小范围内提取时,即使X和Y之间有相关关系,有时也常常呈现不相关的状态,因此这时X需在足够大的范围提取。有时在试验条件下X、Y相关,而在实际生产条件下X、Y不相关,这样不能把相关的结论扩大至更广泛的范围内。,三、作散布图的注意事项,2、异常值的处理在散布图上如
5、果出现下图所示的偏离集体很远的点,则该点可认为是异常值,有必要追究其原因。作为异常值的原因,除了测量差错或记录的疏忽外,常常是操作条件的变化造成的,由此可找到工序改进的线索。,异常值,三、作散布图的注意事项,3、分层的必要性在下图中,从全体座标点看不至相关,然而,从“*”与“”将座标点分层,则发现各自皆有相关。反之,整体好像相关,而分层后层内没有相关的情况存在,所以作散布图前应考虑分层,且以不同的记号表示分层后的座标点。,三、作散布图的注意事项,4、假相关有时存在这样的情况,观察散布图明明有相关,但从技术上看,直接提出的原因与结果之间都没有关系。比如,可能与民列原因之外的原因相关,而错误的认为
6、与所列原因相关,这就叫假相关。,四、散布图的相关检验,绘出散布图后,应对其观察和分析,来判断两个变量之间的相关关系。散布图的定性分析一般有两种方法:1、对照典型图法对照典型图法是散布图分析中最粗略的分析法,把绘好的散布图与典型图对照,可判断出两个变量之间的相关关系。利用对照典型图法,可判断出案例添加剂“A”的重量与产出率之间存在着弱正相关关系。,四、散布图的相关检验,表 4 常 见 的 散 布 图 形 状 与 分 析,四、散布图的相关检验,2、符号检验法(中值法)符合检验法是利用“符号检验表”检查点子云的形态,以判断相关关系及其程度的一种定性分析方法。符号检验法的分析结果要比对照典型图法准确。
7、符号检验法分析步骤(结合下表来说明) 在散布图中作一条平行于X轴的中位线Q,平分散布图中所有的点子,使上下点子数基本相等。 在散布图中作一条平行于Y轴的中位线P,平分散布图中所有的点子,使左右点子数基本相等。,四、散布图的相关检验,2、符号检验法(中值法),8.0,8.5,9.0,9.5,93,92,91,90,89,88,87,86,85,n,3,=10,n,1,n,4,n,2,=10,=5,=5,P,X(g),Y,Q,(%),散布图中位线,四、散布图的相关检验,2、符号检验法(中值法),令:n1+n3=n+ ; n2+n4=n- ;s=Min(n+,n-),即s为n+、n-之中的最小值。
8、查符号检验表得判断值S。在符号检验表中查得与n和相对应的判断值S。 其中:n点数的总和(恰好在中位线上的点子不计算):n=n+n-。 :显著水平,也称作风险度,是与置信度相对应的参数+ =1。:一般取0.01、0.05,意谓着判断错误的风险率是0.01(1%)和0.05(5%) 若有:SS ,判为强相关(显著相关)SS ,判为弱相关(不显著相关)。,四、散布图的相关检验,2、符号检验法(中值法),总判断:结合的判断结论作出总判断。对于上表的案例: S=10, 查右表知:S=9, 因为SS,所以添加剂”A“的重量和产出率是弱正相关。,五、相关系数及其检验,1、相关系数的定义。 相关系数:表示两个
9、变量x与y的相关程度。,式中r为相关系数,(X-X) 为X的离均差平方和, (Y-Y) 为Y的离均差平方和,(X-X)(Y-Y)为X与Y的离均差乘积之和,简称离均差积之和,此值可正可负。以此式为基础计算相关系数的方法称积差法。,2,2,五、相关系数及其检验,r值,r 接近 -1,r 接近 +1,(+) 正的相关关系 () 负的相关关系 接近0时几乎没有相关关系,为调查相关关系,需要数据构造为成对的2个变量数据,五、相关系数及其检验,一般表示为 (总体的相关关系),其范围是 1 1,一般情况下我们无法知道的正确的值,因此使用从样本推断的值r.r从如下公式得出且范围是 -1 r 1 . 一般样本大
10、小(30个以上)为基准如果 |r| 0.80 时具有强的相关关系如果 0.3 |r| 0.80 时具有弱的相关关系.如果 |r| 0.30 时认为没有有效的关系.,五、相关系数及其检验,2、相关的类型和大小,强的正相关,弱的正相关,中间程度的正相关,| r | = 0.936,| r | = 0.560,| r | = 0.3390,强的负相关,弱的负相关,中间程度的负相关,五、相关系数及其检验,3、相关系数的计算,相关系数的计算,根据数据多少的不同,有两种方法:、利用质量特性的测量值直接计算 现以纤维的拉伸倍数与强度的关系的测量数据为例,来叙述相关系数的计算方法。,五、相关系数及其检验,3、
11、相关系数的计算,由右表可知: x=127.5, y=113.1,n=24 x =829.6, y =650.93,xy=731.6,2,2,由r=0.976可知,x与y为接近线性的正相关,五、相关系数及其检验,3、相关系数的计算,、利用变换测量值的简化方法计算 这种方法是用: X=(x-x0)g Y=(y-y0)h 对x、y变换以后进行计算。 式中g、h为消去小数乘上的系数。,五、相关系数及其检验,4、相关系数的检验,散布图相关检验可以定判两组数据x、y是否相关,但是如果求出相关系数时就能够用数字特征更加准确地说明两组数据的相关性。数据总数为n时,表值假定为rn,则:r rn 时说明有相关关系
12、,这时才考虑用直线(回归直线)来描述X与Y之间的关系。,五、相关系数及其检验,4、相关系数的检验,右表中:n为样本量,n-2为自由度,5%、1%为显著性水平,用rn(1%)时比较准确。在前例的实际测量值中,经计算相关系数r=0.976,n=24 查右表知:n-2=22rn(1%)=0.515r =0.9760.515 这说明纤维的拉伸倍数与强度有相关性。,五、相关系数及其检验,4、相关系数的检验,通过相关系数的计算,可以了解两个质量特性数据之间是否存在相互关系,以及推测相关程度,为了进一步明确它们之间存在怎样的关系,还需要求出回归方程式,通过回归方程式,可以找出一条比较合适的经验直线,然后就可以了解两个质量特性之间的确定性关系,这样就可以通过控制一个质量特性(X)来控制另一个质量特性(Y),这是回归方程的应用,本次培训不再叙述。,六、练习,下表所列数据为一铜制品的焊接温度与焊点强度数据,试作出散布图,并分析为何种相关。,謝謝大家!,