1、SPC的数理统计基础知识,教材准备:(APH 黄陈存) 内容检查:(APH 卢满成) 教材批准:(ED 梁振球),課程简介:,培训讲师: 黄陈存(APH) 培训课时: 4H 编写时间: March 2006 培训对象:,在DGN SAE服務滿六個月的下列崗位人員:- 各BU的PE/QA工程師和工序工程師及以上人員- 各部門的SPC推進人、協調人等相關人員- 生產線和QA部門的主管及以上人員,課程大綱:,第一讲、概述 1、统计技术与2000版ISO9000族标准 2、数据及其相关概念 3、数理统计的有关概念,第二讲、数据的整理和分析 1、数据的离散性和规律性 2、数据的特征值 3、数据的频数分布
2、和直方图,課程大綱:,第三讲、质量变异的规律性分析 1、概率分布 2、正态分布 3、二项分布和泊松分布,第四讲、过程控制和统计过程控制 1、基本概念 2、过程能力及过程能力指数 3、过程能力指数与不合格品率 4、影响过程能力的因素及其要求 5、过程分析方法,SPC的数理统计基础知识,第一讲: 概 述,要点:,统计技术与2000版ISO9000族标准,数据及其相关概念,数理统计的有关概念,第一讲: 概 述,一、 统计技术与2000版ISO9000族标准,统计技术与2000版ISO9000族标准,一、统计 技术是质量管理体系的一项基础,统计技术在ISO9001:1994标准中是一个“要素”,与其它
3、19个要素一起,构成质量体系中必不可少的一个“组元”。2000版ISO9000族标准未沿袭94版的要素结构,而采用了“过程方法模式”,将质量管理体系的主要要求归并为“管理职责”、“资源管理”、“产品实现”、“测量分析和改进”四大“板块”,以强调组织内过程系统的应用,并体现“以顾客为为关注焦点”和“ 持续改进”等重要原则。,统计技术与2000版ISO9000族标准,标准结构的这种变化,使统计技术难以以一个具体体系要求纳入2000版ISO9001中的某一板块,而是作为质量管理体系的一项基础,出现在2000版ISO9000标准中。这种“提升”反映了统计技术对质量管理体系在地位上的重要性和应用上的广泛
4、性。,统计技术作为发现问题和体系改进的手段,从94版的一个质量体系“要素”,提升为质量管理体系的一个“基础”,涉及到产品的寿命期的各个阶段,质量管理体系的全过程。,统计技术与2000版ISO9000族标准,二、统计技术在质量管理体系中的作用,2000版标准关注的不是统计技术本身,而是统计技术在质量管理体系中的作用。标准指出: “应用统计技术可帮助组织解决问题并提高有效性和效率。这些技术也有助于更好地利用可获得的数据进行决策。” “在许多活动的状态和结果中,甚至在明显的稳定条件下,均可观察到变异。这种变异可通过产品和过程的可测量的特性观察到,并且在产品的整个寿命期(从市场调研到顾客服务的最终处置
5、)的各个阶段,均可看到其存在。”,统计技术与2000版ISO9000族标准,“ 统计技术有助于对这类变异进行测量、描述、分析、 解释、和建立模型,甚至在数据相对有限的情况下也可实现。这种数据的统计分析能对更好地理解变异的性质、程度和原因提供帮助。从而有助于解决,甚至防止变异引起的问题,并促进持续改进。”,标准中的这一段落,篇幅虽不长,但却将统计技术在质量管理体系中的应用目的、应用对象、方法和思路都作了交代。本次培训力图与其吻合,现简要说明如下:,统计技术与2000彼ISO9000族标准,统计技术研究的对象是变异,而变异普遍存在于新产品实现的各个阶段和质量管理体系的全过程,但客观存在的变异大多数
6、是不能直接观察到的,往往需要通过对反映这些特性值的数据进行分析后才能识别。我们将要讲的“数据的整理和分析”是识别变异和统计技术应用的基础。,变异并非杂乱无章,反映变异的数据往往符合一定的统计分布规律。后面将要介绍的几种常用分布,就是对变异规律的描述。,统计技术与2000版ISO9000族标准,通过数据的统计分析能更好地理解变异的性质、程度和原因。变异通常有两种不同的性质:受控状态下的变异(正常变异)和非受控状态下的变异(非正常变异)。显著性分析、 控制图等内容有助于分析或控制两种不同性质的变异。,对组织而言,掌握统计技术是为了解决本组织的问题和作出有效决策。其目的是提高管理效率并促进质量休系的
7、持续改进和产品质量的不断提高。,第一讲: 概 述,二、数据及其相关概念,数据及其相关概念,数据是统计技术的基础。过程控制和体系运行都离不开数据。所以,学习统计技术首先要了解数据。,一、数据的分类,数据大体可以分为两大类:计量型数据和计数型数据。,计数型数据是指连续测量所得的质量特性值,如长度、重量、强度、化学成分、时间、电阻等。,计量型数据是指按个数数得的非连续性取值的质量特性值,如铸件的疵点数,统计抽样中的不合格判定数、,数据及其相关概念,计数型数据还可进一步分为计件数(如不合格数)和计点数(如疵点数)。将这些数据变换成比率后的数据也是计数型数据。,审核中的不合格项数等可以用0、1、2、3、
8、等阿拉伯数字数下去的数据。,数据及其相关概念,两类数据的差别,决定了数据所反映的统计性质和数据处理的不同方法。例如,计量型数据属连续概率分布,最典型的是正态分布;而计数型数据属离散型概率分布,最典型的是二项分布和泊松分布。,在产品和体系评价中还存在另一个特殊的“量”-官能量,即依靠人的官能(视觉、听觉、味觉、嗅觉、触觉)来评定质量特性所得到的反映值。如企业的质量方针,管理者的质量意识,音响的音质等,其评定效果主要是依靠评定人员的经验和专业技能,多具模糊性。,数据及其相关概念,二、数据的要求,1、针对性,组织应通过需求,分析收集对过程控制和体系的有效运行起作用的数据。而且应根据决策层、管理层和执
9、行层的不同需要收集信息,通过对收集数据的分析,至少能提供以下方面的信息:,(1)、顾客满意程度的评价; (2)、产品的符合性;,数据及其相关概念,2、完整性,(3)、过程能力和产品质量现状,及其发展趋势; (4)、纠正、预防措施和持续改进。,首先,要求数据反映的过程要完整。其次,记录的数据应可追溯,即必要时应记载数据的背景资料(如发生时间、地点、责任者、设备编号等)。第三,表格中规定的栏目填写要完整。,数据及其相关概念,原始数据不允许人为地篡改!,数据应能真实反映过程和体系运行的实际情况。一个不真实、或不准确的数据,不仅不能起到所应有的作用,而且还可能导致一个错误的结论。准确性也包括要明确数字
10、的修约规则。,4、及时性,质量信息有很强的时间性,即使是很重要的信息,一旦错过机会,就会失去使用价值,甚至会造成严重后果。因此,在程序文件中应明确数据的传递、反馈的时,3、准确性,数据及其相关概念,为了掌握产品和体系的动态变化规律,必须保持数据的连续性。不连续的数据,可能会使我们失去很多信息,从而影响数据的分析结果。,5、连续性,机和方式,做到及时记录、及时传递、及时处理和及时通知。,6、统一性,数据的位数,数据的修约规则,数据的表式和媒休要 求要统一。,数据及其相关概念,三、异常数字的判定和剔除,即使是在同样生产条件下的一组数据,其中的个别数据也可能是“不合群”的,即不符合这组数据应遵循的固
11、有分布规律。一般而言,一组数据中最大值或最小值成为异常数据的可能性最大,判为正常数据的风险也最大。所以只要对一组数据的两头,特别是离群明显的一头进行检验并按规定剔除异常数据,就可以提高数据的可信性。,数据及其相关概念,判定和剔除异常数据的方法有多种,这里我们仅介绍一种简单的方法-格拉布斯法。,下表是格拉布斯检验简表。表中给出了不同的第一类错判概率(=0.05,0.25,0.01)下的剔除标准。,数据及其相关概念,表中的n为相同条件下抽取的样本数,T为第一类错判率值下的剔除标准。该表的使用前提是数据服从正态分布。,例1:为验证某批铸件质量,抽查了9件铸件,测得零件重量与该类零件的标准重量的差别分
12、别为(单位:g)6.95,7.20,7.25,7.40,7.46,7.52,7.60,7.80,8.47;试检验上述数据有无异常(取 =0.05),解: (1)将数据由小到大排列;,数据及其相关概念,(2)计算数据的平均值和标准差:,(3)从两 头数据进行检验,对n个数中的最大值X n和最小值X1,为此需计算统计量:,数据及其相关概念,注意:在 X n和X1中,首先应从这两个数据与相邻两个数据中差异最大的开始检验,这里,(4)将统计量 T 与 T 进行比较,如果T T 则判为异常,应予以剔除。,X n- X n-1= 8.47-7.80=0.6;,T n=(8.47-7.52)/0.439=2
13、.19;,T1=(7.52-6.95)/0.434=1.31.,X 2-X1 = 7.20-6.95=0.25。,故应先检验X n,( 为便于比较,最小数据也一并检验),将相关数据代入,得,数据及其相关概念,为此查表得,当 =0.05,n=9时, T=2.11,,剔除 X n 异常后,重新计算余下的8个数的平均值、标准差和统计量 T n-1 ,依次按上述步骤对 X n-1、 X n-2、各数据进行检验,直到无异常数据为止。,因为 T n =2.192.11,X1 = 6.95应予以保留。,T1=1.312.11,.,故X n= 8.47为异常,应剔除;,数据及其相关概念,由于上例中的 T n
14、接近于检验表中的标准值,故 X n-1 的检验可以免去。,四、建立数据(信息)系统,收集数据主要是为了获得所需的信息,组织应设立一个统一的管理企业信息的管理机构-信息中心,各职能部门或基层单位将收集到的数据(信息)提交信息中心,经中心加工处理后,再向有关领导报告和向有关部门反馈所需信息。这样就有利于提高管理的效率,促进质量管理体系的持续改进和产品质量的不断提高。,第一讲: 概 述,三、 数理统计的有关概念,数理统计的有关概念,统计技术主要是指“数理统计”,它是建立在概率论基础上的一门数学分支,是“研究如何以有效的方式去收集、整理和分析受随机影响的数据,以便对所观察的问题作出推断,预测直到为采取
15、决策及行动提供依据。” 用更贴近2000版标准的语言来解释,统计技术是研究事物变异性及其规律的科学。,一、数理统计与统计技术,显然,统计技术的基础是数据。抽样检验、统计质量控制、实验设计、相关分析、显著性检验、可靠性、以及多元分析等都属数理统计范畴。,数理统计的有关概念,在全面质量管理中,管理者们打破了统计技术就是数理统计的禁区,使一些在现场管理中使用方便的图表或经整理的特征数据,也纳入了统计技术的范畴(如QC七工具等)。为了区别起见,人们习惯将统计技术分成两类:,推断型统计技术:主要解决从样本如何推断总体。概率论和数理统计研究的对象大多属于此类。 描述型统计技术;主要是利用数据的特征或有关图
16、表描述事物。,本次介绍的,主要是针对推断型的统计技术中的概念。,数理统计的有关概念,统计技术注重的是对总体的研究和分析,就产品而言,统计技术研究的是产品长期质量和生产的整体质量。,二、总休与个体,总体,也叫母体,是研究对象的全体。总体可以是有限的或无限的。有限总体是指组成总体的个体数量是有限的,如一批产品;无限总体指总体的个体数量是无限的,如一条直线作为点的集合。,个体:组成总体的每一个单位称为个体。个体可以是一件产品、一道工序或一项产品的包装单位。,数理统计的有关概念,样品:组成样本的每一个体称为样品。,三、样本,当产品的批量很大、破坏性试验或无限总体情况下,很难或根本不可能对总体中的每一个
17、体进行检验。通常的做法是:从总体中抽取部分个体,并依据部分个体的检验结果,去推断总体的质量水平。,样本: 从总体中抽取的部分个体称为样本。,样本容量:样本中包含样品的数量称为样本容量或样本大小。,数理统计的有关概念,所谓统计推断,就是依据对样本的检测或观察结果去推断总体状况(如下图所示)。,抽样:抽取样本的过程称抽样。,数理统计的有关概念,检验批:待检验的一批产品称为检验批。,四、生产批与检验批,生产批:过程在受控状态下连续生产的一批产品称为一个生产批 。,批量:组成一批产品的单位个数称为批量。,一般而言,一个生产批,即为一个检验批。但在某些特殊情况下,如批量过大、生产周期过长、可以将一个生产
18、批划分为若干检验批。但要保证生产过程是稳定的,各检验批之间质量均衡,不可人为地任意划分。,数理统计的有关概念,自然界中所观察到的现象有确定性现象和随机现象两种。,注意:为保证检验批的代表性,任何情况下不能将两 个生产批合并为一个检验批。,五、随机现象,确定现象:在一定条件下必然发生(出现)某一结果的现象称为确定性现象。例如:太如从东边升起;三角形的三个内角之和等于180度;函数在间断点处不存在导数等等。,确定性现象的特征是:条件完全决定结果。,数理统计的有关概念,实例3“抛掷一枚骰子,观察出现的点数”,结果可能为: 1,2,3,4,5,6 。,随机现象:在一定条件下可能发生这种结果,也可能发生
19、那种结果,即预先不能确定到底发生哪种结果的的现象称为随机现象。,实例1 “在相同条件下掷一枚均匀的硬币,观察正反两面出现的情况”,结果有可能出现正面朝上也可能出现反面朝上。,实例2 “用同一门炮向同一目标发射同一种炮弹多发 , 观察弹落点的情况”.,结果::“弹落点会各不相同”。,数理统计的有关概念,实例4 “从一批含有正品和次品的产品中任意抽一件产品”,其结果可能为:正品或次品。,实例5 “刚出生的婴儿可 能是男,也可能是女”。,随机现象的特征: 条件不能完全决定结果。,1.、随机现象揭示了条件和结果之间的非确定性联系 。,说明:,数理统计的有关概念,六、 随机试验,2、 随机现象在一次观察
20、中出现什么结果具有偶然性, 但在大量试验或观察中, 这种结果的出现具有一定的统计规律性 。,如何来研究随机现象?,随机现象是通过随机试验来研究的。,随机试验:在概率论中, 将实现一组条件称为试验。把具有以下三个特征的试验称为随机试验。,数理统计的有关概念,1、 试验可以在相同的条件下重复地进行;,2、试验的可能结果在试验前可以明确知道;,3、每次试验总是恰好出现上述结果中的一个,但在试验前不能确定哪一个结果将会出现。,随机试验简称为试验, 是一个广泛的术语.它包括各种各样的科学实验, 也包括对客观事物进行的 “调查”、“观察”、或 “测量” 等。,数理统计的有关概念,例如:,1、抛掷一枚骰子,
21、观察出现的点数。,2、从一批产品中,依次任选三件,记录出现正品与次品的件数。,3、记录某公共汽车站某日上午某时刻的等车人数。,4、考察某地区四月份的平均气温。,5、从一批灯泡中任取一只,测试其寿命。,数理统计的有关概念,七、随机事件,确定性现象只有两种结果:发生与不发生,它们可以用必然事件和不可能事件来表示。,必然事件:在一定条件下必然发生的结果。如:“三角形的三个内角和等于180度”,“在一批全部是合格品的产品中任抽一件合格品”,都是必然事件。,不可能事件:在一定条件下必然不发生的结果。如:“物体的速度达不到第二宇宙速度(11.2公里/秒),物体成为行星”,“在一批全部是合格品的产品中任抽一
22、件不合格品”,都 是不可能事件。,数理统计的有关概念,在质量体系运行过程中或产品实现的各个阶段出现的各种现象、状态或结果,在统计技术中统称为事件。,随机事件:随机现象中可能发生也可能不发生的结果称为随机事件,简称事件。例如:一批待检验的产品中,可能有合格品,也可能有不合格品,若从中任意抽取一件合格品的事件,就是随机事件。,随机现象可以用随机事件来表示。,统计技术研究的主要是随机事件,简称事件。,数理统计的有关概念,频率:随机事件发生的个数(次数)在总观察数中所占的比率称为频率。通常记作 f n 。如上例事件若是从总数为100件电发火管中抽取的,则爆破力落在 78.0581.05 间的事件A的频
23、率为 f n (A)= 3/100=3%。,八、频数、频率和概率,频数:随机事件在一组数据或多次试验中出现的次数,或不同数据落在某区间的个数称为频数。例如:有3个电发火管的爆破压力落在78.0581.05区间,即压力在 78.0581.05这一随机事件的频数为3。,数理统计的有关概念,随机事件在一次试验中可能发生,也可能不发生,具有不确定性,即随机性。然而在大量的试验中,随机事件却呈现出明显的规律性,即所谓的频率稳定性。,频率的稳定性反映了事件发生的可能性的大小。由此看来,事件发生的可能性的大小可以用一个数值来度量。,概率:,一般地,度量随机事件A发生的可能性大小的数值称为事件A的概率,记作P
24、(A)。,数理统计的有关概念,频率的稳定性的意义就在于它表明概率的存在, 从而使得概率概念在现实世界有其参照物。,概率是频率的稳定值,反之,频率可以认为是概率的近似值,是对概率进行一次测量的结果。,概率应具有下列性质:对于任何事件A,,0 P(A) 1,P()=1, P( )=0,数理统计的有关概念,九、小概率事件,当某一事件发生的概率很小时(通常小于0.05)称小概率事件。小概率事件虽然不是不可能事件,但在少数试验中,小概率事件是可以忽略不计的。如果在正常情况下,发生了小概率的统计结果,则可根据小概率事件在一次或少数几次观察中几乎不会出现的规律,可以认为此时生产是正处于一种不稳定状态,即异常
25、状态。从而提示我们即时分析原因,采取措施。,数理统计的有关概念,在统计过程中,为了识别生产过程是否正常,或将随机误差控制在一定范围内,人们更多地是用正常误差和条件误差来区分误差的性质。,条件误差:是指在加工过程是由于人、机、料、法、测、环中一个或多个因素发生变化引起的误差。,正常误差:是指在加工过程是加工过程在受控状态下,由于机床的微小颤动力、材料在合格范围内的不均匀变化等引起的误差。,十、系统误差和随机误差,数理统计的有关概念,统计检验、控制图等统计技术的实质就是要区别因误差引起的的数据波动是正常因素引起的还是由条件因素引起的。,由于条件误差对质量影响较大,较易识别,是质量控制的主要对象。而
26、正常误差通常由公差给以保证。,第一讲: 概 述,The EndThank you very much!,SPC的数理统计基础知识,第二讲:数据的整理和分析,要点:,数据的离散性和规律性,用数据特征衡量和比较数据,作频数(频率)分布表说明数据分布,利用直方图分析过程状态,第二讲:数据的整理和分析,数据的离散性和规律性,数据的离散性和规律性,实践证明,由于变异性的普遍存在,无论采取什么措施,都无法加工出两件完全相同的零件,零件之间不论在尺寸、性能上都会存在或大、或小的离散(波动)。,例1、一个生产电发火管产品的工厂,检验规定要求;每一工作班次应抽取不少于10个电发火管作爆破试验,如抽检中有1个不合
27、格,则加倍取样试验,如不合格总数超过两件则该批判为不合格批。试分析该检验要求存在的问题。,数据的离散性和规律性,分析:,(1)、规范中未明确规定要记录爆破压力数据,如检验只判定产品合格与否,必然丧失很多有用的信息,也无法分析数据的离散情况。,(2)、未要求按规定的时间间隔抽检产品,无法分析压力随时间的变化情况。,(3)、由于采用的“大流水”记录方式,无法比较不同班次间数据变化差异。,(4)、抽样方案不合理。(关于这方面问题后边安排有专门的课程学习,在此不再赘述)。,数据的离散性和规律性,为了改进,企业对检验规范进行了修订,要求:,(1)、每一班次检验员必须按规定时间间隔和顺序抽样;,(3)、表
28、格上增加记录每天的最大值XU和最小值XL,以了解数据的离散范围。,(2)、将实测爆破压力记在规定的表格上,并向下一班交接;,下表共收集了10个班次100个数据(表中时间略去),,数据的离散性和规律性,电发火管爆破压力试验数据,注:蓝色字体为每班的最小值,红色为最大值。,数据的离散性和规律性,从该表中可以看出,在这100个数据中的最大值和最小值可以从表的右边两列中找出:,X max=101.7, X min=75.2;,虽然表中的数据提供的信息是有限的,但我们仍可从中看出数据所具有的两个重要特征:离散性和规律性。,1、离散性:与其它产品一样,不管事前如何严格控制, 反映产品质量的数据(这里是爆破
29、压力),总是有波动的。,2、规律性:反映爆破压力的数据虽有波动,但这种波动并非是杂乱无章的,而是有一定的规律。,数据的离散性和规律性,从表中可以看出,数据都在某一范围内(75.2与101.7 之间)波动,而且较多的数据在8590之间。如果生产条件不变,再抽一批电发管做试验,我们将发现爆破压力的波动与前一数据大致相似。如果生产条件改变了,波动范围也会随之变化。这说明反映爆破压力数据的波动是有规律的。,统计技术的一个重要任务: 首先,正确并客观地记录生产各个阶段的数据;其次,整理和分析数据;最后,选用恰当的统计方法揭示数据的规律并进而运用统计规律,达到控制产品质量,预防问题发生和质量改进的目的。,
30、第二讲:数据的整理和分析,数据的离散特征值,数据的的特征值,前面所用的表可以用来观察数据波动的大致情况,但不能看到数量方面信息,特别是比较两组以上数据分布时,无法定量地表征它们之间的差别。为了解决这个问题,我们常用两类统计量表征数据。,表示数据位置特征(中心趋向)的值有平均值、中位数、中值和众数等。,一、数据的位置特征值,1、平均值,如果从总体中抽取的一个样本数据为 X1,X2, Xn 则样本平均值为,数据的的特征值,上表中样本均值为:,2、中位数X,有时,为了减少计算,将数据 X1,X2, Xn 按从大到小次序排列,用位居于正中的那个数或中间两个数的平均值(当数据为偶数个时)表示数据的总体平
31、均值水平。,3、中值M,测定值中的最大值 X max 与最小值 X min 的平均值,用M表示。,M=( X max + X min )/2,上表中的数据的中值为: M=( 101.7+75.2 )/2=88.45.,数据的的特征值,4、众数,在用频数分布表表示测定值时,频数最多的值即为众数。若测定值按区间做频数分布时,频数最多的区间代表值(一般用区间中值)亦称众数。,由后面将要讲的频数分布表可以查出,上表中数据的众数为88.65。,从以上的数值可以看出,用不同的方法计算的数据位置持征值(均为样本值)是相当接近的。,二、数据的离散特征值,数据的离散特征值,例2、为便于比较,现给出均值相等的两组
32、数据:32,38,34,39,37和27,29,35,42,47。两组数据的均值为:,=(32+38+34+39+37)/5=36,=(27+29+35+42+47)/5=36,两组数据的平均值虽相等,但后一组数比前一组数的离散程度明显要大。 显然,仅有一个反映数据位置的特征值是不够的,还必须有一个反映数据离散程度亦即变异程度的特征值。,经常使用的离散特征值,包括极差(R),偏差平方和(S),无偏方差(s2)和标准偏差(s)等。,数据的离散特征值,注:通常,极差用于测定个数 n 小于10的场合,当 n 大于10时,一般用标准偏差 s 表示离散程度。,偏差:各个测定值X i 与平均值 X 之差称
33、为偏差。,R1=39-32=7; R2=47-27=20.,1、极差 R,测定值中的最大值 X max 与最小值 X min 之差,用R表示。如上例中两组均值相等的数据的极差分别为:,2、偏差平方和 S,数据的离散特征值,则,3、无偏方差 s2,偏差平方和:各个测定值的偏差的平方和称为偏差平方和,简称平方和,用 S 表示。,设各个测定值为 X1,X2, Xn ,其平均值为,各个测定值的偏差平方和除以(n-1)后所得的值称为无偏方差(简称方差),用 s2 表示。,数据的离散特征值,4、标准偏差 s,方差 s2 的算术平方根为标准偏差(简你标准差),用 s 表示;,例3、试求例2中两组数据的方差和
34、标准差。,注:方差s2 的单位为测定值单位的平方。,注:标准差 s 的单位与测定值的单位相同。,数据的离散特征值,s12 =8.5,同理可求出例1中的样本标准差 s=6.646。,解:只需将例2 中数字分别代入公式,即可得:,s22 =72,三、变异系数,以上反映数据离散程度的特征值,只反映产品质量的绝对波动大小。在工程实践中,测量较大的产品,绝对误差一般较大;测量较小的产品,绝对误差一般较小。因此还应该考虑相对波动的大小,在统计技术上用变异系数Cv来表达;,数据的离散特征值,式中和为总体均值和总体标准差,当过程在受控状态下,且样本容差较大时,可用样本标准差s和样本均值X进行估计。,第二讲:数
35、据的整理和分析,数据的频数分布和直方图,数据的的频数分布和直方图,一、数据的频数分布表,为进一步挖掘数据的有用信息,仍以发管爆破压力的100个数据为例,讲解频数分布表的步骤:,1、计算数据的变化范围(极差),2、根据样本 n 的大小,按下表确定组数。这是K=9。,R=101.9-75.2=26.5,数据的的频数分布和直方图,3、计算组距 h,h=R/K=2.94,为了计算方便,将组距舍入到最小测量单位的整数倍,本例取 h=3.0.,4、确定边界值,为避免数据落在边界上, 并使最小值落在第一组内,故取第一组的下限等于最小值减去最小测量单位的一半 (本例即0.1/2 = 0.05) ,于是,第一组
36、的下限 = 75.2-0.05=75.15;第一组的上限 = 第一组的下限 + 组距 = 75.15 + 3 = 78.15;其余各组依此类推。,数据的的频数分布和直方图,5、为统计方便,可采用唱票法,将数统计在对应区间,即作出频数分布表(如下表),数据的的频数分布和直方图,二、频数直方图,为更加直观,可以用频数直方图代替频数分布表,频数直方图是频数分布表的图示形式。频数直方图是在频数分布表基础上作出的。作法如下:,以各组边界值画横轴,纵轴为频数,画出以组距 h为宽,频数 n i 为高的一个个直方,即为直方图。,数据的的频数分布和直方图,三、频率直方图,频率直方图的的基本作法与频数直方图相同,
37、只是纵轴以频率取代频数,其图形的形状不变。,频率直方图可帮助我们分析数据在每一组中所占比例的变化情况。,数据的的频数分布和直方图,四、利用直方图对过程进行分析,如果随机从同一生产条件下再抽100件产品,虽然各组的频数(或频率)不尽相同,但直方图的图形大致相同。如两个直方图差异很大,则应怀疑生产条件有可能变化。,由于直方图作法简单,且又形象、直观,在企业中应用广泛。有些外企在采购产品时,不仅要求供方出具产品的合格证明,而且要求提供能反映质量变异情况的直方图。,下图是过程控制中常见的几种直方图,常因产品类别、设备、加工方法等不同而有异,以下分析仅供参考。,数据的的频数分布和直方图,a. 正常型:
38、特点是中间高、两边低、左右基本对称。这是数据服从正态分布的特征,也是大多数产品质量特性所具有的图形。,b. 偏向型 :特点也是中间高、两边低、但高峰偏向一侧,形成不对称形状。,这种情况可能是人为有意识对过程进行干涉造成的。如机加工中孔的尺寸往往偏下限,而轴的尺寸偏上限。,数据的的频数分布和直方图,c. 双峰型:特点是有两个高峰。这往往由于来自两个总体的数据混在一起所致,如两个工人加工的产品混在一起。,d. 孤岛型:在远离主分布的地方出现一个小直方形,有如一个孤岛。这可能是由于过程在有一个时期产生了过程条件的较明显变化,如原材料混杂、操作疏忽等。,数据的的频数分布和直方图,e. 低峰型:可能由于
39、过程中某种倾向性因素缓慢作用所致。,f. 高峰型:可能数据已经过筛选。,g. 锯齿型:特点是直方图内各直方高低参差不齐。其原因可能是直方图分组不当(过多)或测量误差过大而所致。,第二讲:数据的整理和分析,The EndThank you very much!,SPC的数理统计基础知识,第三讲: 质量变异的规律性分析,要点:,概率分布,正态分布,二项分布和泊松分布,第三讲: 质量变异的规律性分析,一、 概率分布,概率分布,若将频率直方图的纵座标改为频率与组距之比f i /h,则仍然可用直方图来表示产品质量分布。此时,反映产品特性值的数据在某区间的频率,为此区间所含各直方的面积之和,而且各矩形面积
40、的总和为1。,概率分布,可以设想,如果我们取更多的样本个数,组分得更细,样本的质量特性散布越接近总体真实的质量特性散布,直方图的轮廓线的阶跃也就越小。当n趋向于,h趋向于0时,直方图趋于一条光滑的曲线(如下图所示),此时,该曲线不再代表样本的质量特性值分布,而是代表总体的质量特性值的分布规律。,概率分布,这条曲线排除了抽样误差和测量误差,完全反映了产品质量的波动规律。这种反映产品质量规律的曲线称为分布密度曲线。,概率分布,从分布密度曲线图上不难看出;分布曲线与座标所夹的面积等于1。,描述分布密度曲线的表达式称为分布密度函数。,概率分布是将变量在总体中的取值与其发生的概率二者相联系的数字模型。概
41、率分布有两种类型:连续概率分布和离散概率分布。,典型的连续概率分布是正态分布,常见的离散概率分布是二项分布和泊松分布。,第三讲: 质量变异的规律性分析,二、 正态分布 (normal distribution),正态分布是最常见、应用最广泛的一种分布,当质量特性(随机变量)由为数众多的因素影响,而又没有一个因素起主导作用的情况下,该质量特性的变异分布,一般都服从正态分布。例如,轴径的加工尺寸、化工产品的化学成分、一些电子产品的电参数、测量误差,以及一些自然现象等都属正态分布。,正态分布,一、正态分布特点:,正态分布变量的分布密度曲线形状如下图所示的草帽状:,1、曲线最高点的横坐标,称正态分布的
42、均值,用表示,这就意味着随机变量x在 附近出现的概率最大,当x向左右远离时,x出现的概率随分布曲线的降低而迅速下降。,其特点为:,当n,h0时,直方图趋于一条光滑的曲线-分布曲线,正态分布,2、曲线以为对称轴,从理论上讲,若将曲线以该轴对折时,两边曲线应重合。,3、如果用数学模式表述正态分布曲线(称正态分布密度函数),则,正态分布,4、由密度函数可看出,任一正态分布仅由两个参数,即总体均值 和总体标准差完全确定。 亦称分布的位置参数, 称分布的形状参数; 值越小,曲线越陡,数据(变量)离散也越小; 值越大,曲线越扁平,数据的离散也越大。下图给出了标准差 分别为0.5,1和2的三种图形的示意图。
43、,正态分布,5、从理论上讲,曲线以横轴为渐近线,亦即横轴的定义域从-到。通过计算(实际上是查表)可得出以下几个在质量管理中常用的结论:,变化的直观意义,正态分布,1界限范围内的概率为68.26%;,2界限范围内的概率为95.46%;,3界限范围内的概率为99.73%;,以为基准分布曲线下不同面积所包含的概率,正态分布,而数据落在:,1.96界限范围内的概率为95.0。,3界限之外的概率应小于3%;,1.96界限之外的概率应小于5%。,直方图是用来描述样本特性值的分布的,其均值和标准差分别用,和s表示。概率分布则是描述总体特性值的分布其均值和标准差分别用希腊字母 和来表示。概率分布是将质量特性值
44、(随机变量)在总体中的取值与其发生的概率相联系的数学模型。,正态分布,对于一个具有均值为 ,样准差为的正态分布,通常采用一个专门符号来表示,记作N(,)或N(,2)。,三、标准正态分布:,1、累积正态分布:,正态分布,在质量管理中,常见的连续分布是正态分布。 对于计量特性值,如长度、重量、时间、强度、纯度、成分等连续性数据,最常见的是正态分布。,前面讲过累积频率的概念,即从数据最小的直方频率,一直累加到某一指定的直方频率。与此类似,正态分布的累积概率,是指从数据最小(理论上是-)的概率一直累加到某一指定数值c的概率。,正态分布的累积概率实质是计算 -至数轴上某一指定点(称正态分位点)分布曲线所
45、包含在面积。根据正态密度函数,数据(正态变量)xc的概率为图中阴影部分,亦即:,正态分布,为便于应用,可令 =0,=1的正态分布为标准正态分布,记作N(0,1)。根据正态分布的密度函数,标准正态分布的密度函数可记为:,2、标准正态分布:,对于一个 0,1的任一正态分布只需作如下变换转化为标准正态分布。即设统计量Z为:,正态分布,即将总体中的每一个值减去 并放大倍。从而使上述积分的计算与 和的具体数值无关。于是,简记为 (Z),它是标准正态分布N(0,1)的累积分布函数。,正态分布,附表1中的正态分布表是以标准正态分布设计的。该表给出从-4.99 Z4.99范围内的(Z)值。表中的第一列表示Z的
46、整数部分及小数点后第一位,第一行为Z的小数点后第二位值。为便于排版,表中采象031078、938922等写法,分别表示小数点后有3个0或3个9,即0.0001078和0.9998922。,例1、已知发火管爆破压力服从N(89,4.6)的正态分布,试求:(1)x80的概率;(2) x90的概率 ;,(3) 80 x90的概率;(4) x90的概率。,正态分布,Z1=(80-89)/4.6=-1.96,查表,当 Z1 =-1.96时,得 (-1.96)=0.025,即对于正态变量x服从 N(89,4.6)时,爆破压力小于80的概率为2.5%。,(1)首先,将N(89,4.6)转化为N(0,1)的标
47、准正态分布,即计算统计量Z1:,解:,(2)统计量Z2=(90-89)/4.6=0.22,查表,得 (0.22)=0.5871,即压力值低于90的概率近似为59%。,(3) P(80 x90)= (Z2)- (Z1)=0.59-0.025=0.565,正态分布,故 P(x90 )=1- ( Z2 )=1-0.59=0.41。,(4) 由于,三、样本均值 的分布,统计推断是根据样本统计量( 、s 等),去对总体作出判定,若已知总体的概率分布,则通常可以确定由所抽取的样本统计量的概率分布。统计量的概率分布称抽样分布。,可以证明,不论总体分布如何,样本均值 的分布都近似为:,正态分布,即,均值不变,
48、而标准差为:,四、正态性检验,直方图虽然很象正态分布,但直方图并非是稳定的,而且利用正态分布解决问题(常直接使用正态分布表),也并非要画直方图。这常需要直接验证数据是否服从正态分布,即所谓的正态性检验问题。,数据的正态性检验有多种方法,如X2检验法、偏态、峰态检验法等,这里只介绍一种简单而有效的方法:,正态分布,有一种特殊的坐标纸, 叫正态坐标纸,它的横坐标是普通刻度,纵坐标按正态分布规律刻划,按照规定方法在正态纸上打点,如果数据分布是正态的,则打出的点子近于一条直线,而且我们还可依据这条直线估计总体均值 和总体标准差 。,例 5、我们仍以爆破压力频数表为基础介绍其步骤:,(1) 准备一张正态
49、概率纸备用;,(2) 在频数(频率)表基础上,计算累积频率 F i ;,(3) 将特性值X i 和F i 分别标在横轴和纵轴上;,正态分布,(4)作一条直线,并使这条直线的两边点子大体相等(首末两点可不作考虑);,(5)根据各点散布情况作出判断,由于各点基本处于一直线上,因此认为数据服从正态分布。,正态概率纸还可用来估计均值和标准差。,F i =50%处向横轴引垂线与横轴交点为;,F i =84.1%或(15.9%)的交点为+(或(- ),于是可得 ,该例:=88.70%, =88.70-84.30=4.40。,正态分布,第三讲: 质量变异的规律性分析,三、 二项分布和泊松分布(binomial &Poisson distribution),一、二项分布(binomial distribution),二项分布和泊松分布,有时,一个事物只有两种可能的状态或结果,例如:一件产品的检验,要么合格,要么不合格;一个待发射的卫星,要么发射成功,要么发射不成功;虫子吃了农药,要么死去,要么活着,等等,二者必居其一。此时,我们都可用二项分布来研究和分析这类问题。,