1、数理统计建模,直方图,直方图:频率直方图和累积频率直方图,直方图是用横坐标标注质量特性值,纵坐标标注频数或频率值,各组的频数或频率的大小用直方柱的高度表示的图形,直方图,在质量管理中,如何预测并监控产品质量状况?如何对质量波动进行分析?直方图就是一目了然地把这些问题图表化处理的工具。它通过对收集到的貌似无序的数据进行处理,来反映产品质量的分布情况,判断和预测产品质量及不合格率。,直方图绘制方法,直方图绘制6步法集中和记录数据,求出其最大值和最小值。(数据的数量应在100个以上,在数量不多的情况下,至少也应在50个以上) 将数据分成若干组,并做好记号。(分组的数量在620之间较为适宜) 计算组距
2、的宽度。用组数去除最大值和最小值之差,求出组距的宽度。,直方图绘制方法,计算各组的界限位。各组的界限位可以从第一组开始依次计算。 统计各组数据出现频数,作频数分布表。 作直方图。以组距为底长,以频数为高,作各组的矩形图。,四种抽样方法,收集数据又叫抽样,抽样有下列四种: 简单随机抽样:简单随机抽样是一种一步抽样法,它要求在调查总体N中不加任何分组、划类、排队等,完全随机抽取n个调查单位作为样本。 等距抽样:等距抽样又称机械抽样或系统抽样。它是先将总体中各单位按一定的标志排队,然后每隔一定的距离抽取一个单位构成样本。,四种抽样方法,分层随机抽样:分层随机抽样又称为类型随机抽样、分类随机抽样。它是
3、按照某一标志,先将总体分成若干组(类),其中每一组(类)称为一层,再在层内按简单随机抽样方法进行抽样。 整群随机抽样:整群随机抽样是先将总体按某一标志分成若干组,其中每个组称为一个群,以群为单位进行简单随机抽样,然后对抽到的每个单位都进行调查。,样本均值和方差,常见抽样分布,统计推断方法,例题1:从一个池塘里捞出1000尾鱼,将其尾部标以红点,仍然放入水中。经过一段时间,再从池中捞出1000尾鱼,其中有红点的鱼有100尾。试估计池中有多少尾鱼?,统计推断方法,例题1的分析:将1000尾鱼再放入水中以后,鱼的总数不变。经过一段时间,这些鱼在池中应该分布“均匀”了,而第二次捞出的鱼中,有红点者占捞
4、出鱼总数的100/1000=10%,所以从比例的观点看,池中鱼的总数x应该满足10%x=1000所以x=10000,因而可以认为池中的鱼大约在万尾左右。,统计推断方法,例题2:由厂方提出的一箱产品计1000件,从中取出100件,发现其中有2件不合格品。经约定:如果一箱的废品率超过1%,那么买方就不接受此(整)箱产品;否则买方就得接受。问此箱产品应否接收?,例题2的分析:按上例,从比例出发,认为此箱产品的废品率为2/100=2%,它大于1%,因而按照约定,买方可以拒绝接收。,你觉得合理吗?,统计推断方法,先将上述模型一般化: (1)在上述两个例题中,所考察的个体(鱼,产品)的全体(总体)个数都是
5、一个有限数N。我们不妨将所考察的个体通称为“球”,并且认为都在一个“袋”中。 (2)在两个问题中,总体的元(个体)都分成两类(有红点或无红点;废品或合格品),将前者通称为“红球”,后者通称为“黑球”,记红球个数为M,统计推断方法,(3)在两个问题中,都从总体中抽出若干个体(一个样本),样本容量为n (4)在两个问题中,样本中含有红球的个数为m (5)假设从总体中抽取任意一球的可能性都相等。,统计推断方法,从而上述问题可归结为如下的超几何模型: 设有一袋,袋中有N个球,其中有M个红球,N-M个黑球,假设从袋中抽取任意一球的可能性相等。现从袋中任取n个球,用X表示取出的n个球中的红球数,则PX=m
6、的表达式为,统计推断方法,例1就是要估计N: 易见PX=m是N的函数。,一个“直观的想法”是:N应该使概率PX=m达到最大 !?,统计推断方法,池塘内的鱼数为:,统计推断方法,例2就是要检验废品率: 产品检验的问题是这样提出的:产品总免不了有废品,在买卖中,买方当然希望买进的货物中废品尽量的少,而卖方则希望合格品都被买方接受。最自然的办法是由买卖双方对产品逐个检验。 显然,该办法在很多时候都是不现实的!(该办法只能适用于非破坏性的检验,而且批量小、检验费用低的情况。在现代化生产和市场交易中,这种情况是很少的),统计推断方法,因此人们希望制定一种简便的验收方案,使买卖双方在每批货物的交接中,尽可
7、能都得到满足。即对于卖方交付的每批产品,通过检验其中部分产品,使买方接收的废品比例和卖方被退回的合格品的比例都在可以接受的限度内。 如何建立这种方案呢?,统计推断方法,假设例题2中所检验的那箱产品的废品率为1%,则易计算得,也就是说,抽到3个以上的废品的概率(可能性)是很小的(1.23%);而且还可以证明,当废品率小于1%时,抽到3个以上的废品的可能性更小。,统计推断方法,根据实践经验知道:概率很小的事件是难于发生的。所以从卖方希望尽量将合格箱交出的观点看:从一箱产品中抽取100个产品,抽到的废品数大于3时,就没有理由交给对方;抽到的废品数小于或等于3时,就可以认为此箱产品合格,买方应该接收。
8、于是 按照卖方的观点应该约定:从一箱产品中抽取100个产品,抽到废品数大于3时,卖方应该自己留下;抽到废品数小于或等于3时,就应该认为该箱产品合格,买方应该接收;,统计推断方法,这种“概率很小的事件在实践中难于发生”在数理统计学中称为“实际推断原理”:一个事件如果发生的概率很小(如1%或5%),那么在一次试验中,就认为它不会发生;反之,一个事件如果发生的概率很大(如99%或95%),那么在一次试验中,就认为它必定发生。 上述做法会犯错误吧?,统计推断方法,事实上,事件发生的可能性小、难于发生,并不等于不发生。所以存在这样的情况:抽到的废品数虽然大于3,但该箱的废品率不超过1%. 此时,虽然此箱
9、产品合格,但是按照约定,还得作为不合格处理而招致损失。于是卖方损失的可能性达到1.23%. 在统计学中称为犯第一类错误的概率(弃真概率),统计推断方法,以上只是从卖方角度考虑问题,我们现在从买方角度分析:卖方交出产品只是根据假设所检验的箱合格做出的断言,该箱产品完全可能不合格。买方当然十分关心接收不合格的箱的概率有多大?这个概率在统计学中称为犯第二类错误的概率(纳伪概率),买方总是希望纳伪的概率尽可能小。,统计推断方法,按照超几何分布,此例的纳伪概率应该是:在废品率超过1%,即M10001%=10的条件下,概率,由上可以看出:在样本容量100,废品率超过规定1%而小于或等于3%时,纳伪概率很大
10、。这种情况使得卖方认为买方应该接受的产品,而买方却不能接受。,统计推断方法,但从买方观点看,他也可以规定一个能接受的“最坏”(即使得产品质量达到他可以接受的最低程度)的废品率,而使纳伪概率较小。人们称为“最坏”的废品率为极限质量,通常记为p1,而将原来双方约定的废品率称为合格质量,记为p0. 从上面计算结果可知:如果极限质量规定为4%,那么纳伪概率不超过3.8%. 如果极限质量规定为5%,那么纳伪概率不超过1%.,统计推断方法,以上的讨论可以总结如下:设想交的每批产品数(也称产品批量)为N,产品的抽样检验方案就是:规定每批产品抽检的产品数n和其中允许废品数的上限(也称合格品判定数)c. 如果抽
11、出的n件产品中的废品数X小于或等于c,这批产品就由买方整个接收,如果X大于c,买方就拒收这批产品。,统计推断方法,(1)从卖方的观点看,“理想”的方案是:确定一个数p0(0,1) (称为合格质量),如果一批产品中的废品数MNp0时,就认为这批产品合格。对卖方来说,方案的要求是:给出较小的正数(即弃真概率,通常取1%或5%),使得n、c满足,统计推断方法,(2)从买方观点看,确定一个数p1(p0)(称为极限质量),如果一批产品中的废品数MNp1时,就认为这批产品不合格而加以拒绝。对买方来说,方案的要求是:对给出较小的正数(即纳伪概率,通常取1%或5% ),使得n、c满足,统计推断方法,又可以证明
12、:PXc 随废品数M的上升而下降。再由实际情况,不妨设Np0、Np1都是整数。所以满足上面两式的n、c就是满足,这组不等式通常不能直接求解,只能试解。或用近似分布求解。,统计推断方法,总结其中的统计思想 直接的总结是:超几何分布的第一个应用是:球的总数未知,红球数已知,要通过抽取(观察)部分球(样本)的情况来估计总数;第二个应用是:球的总数知道,抽取(观察)一部分球(样本),希望通过清点这一部分球中的红球数,来探讨全体球中有多少红球。归纳起来,就是希望运用数学方法,通过样本的数据来判断总体的某些性质这就是统计学研究的对象!,统计推断方法,上升到理论高度总结是:两例显示数理统计的两个重要研究内容
13、:参数估计和假设检验 由于统计学是由对象的部分现象来推断全体的现象,因此它的推断是归纳性的,它对所研究的对象的结论不是决定性的,带有一定的随机(偶然)性,而且还有犯错误的可能。但是由于结论是用数学的方法概率论来表达的,因此又是决定性的!,统计推断方法,另外,题目中也涉及到统计学的抽样和抽样分布问题,很容易看出两个例题的抽样都不是简单随机抽样(数理统计的研究都需要简单随机抽样,这样数学处理才方便!),但都是实际当中最易于采取的抽样,如何处理好二者的关系还是相当必要的!,区间估计,不仅需要给出参数的一个数值估计,往往需要给出估计的误差,例如:铁院男生身高XN(,2) ,随机测量16人的身高得 ,又
14、如:食堂某师傅的打饭量XN(,2) ,随机测量9次打饭量 ,区间估计,南方成年男子身高XN(1,2) ,随机测量4人的身高:167,170,175,188;北方成年男子身高YN(2,2) ,随机测量4人的身高:168,176,176,173,两样本独立。问南北方成年男子平均身高有无差别?,假设检验,例: 某车间用一台包装机包装葡萄糖,包得的袋装糖的重量XN(,0.0152),当机器工作正常时0.5公斤。某日开工后为检验包装机是否正常,随机地抽取9袋包装好的糖,称得净重为(公斤):0.497,0.506,0.518,0.524,0.498,0.511,0.520,0.515,0.512,问机器是
15、否工作正常?,假设检验,例: 设各届学生概率统计成绩服从正态分布,为比较04届本科学生的概率统计平均成绩是否较03届有所提高,分别从两届学生试卷中独立随机抽取10份 03届:78 72 76 74 77 78 76 75 76 77 04届:71 81 77 79 80 79 79 77 77 82 问:04届本科学生的概率统计平均成绩是否较03届没有所提高,假设检验,假设检验的统计思想和方法 1.假设检验的含义:在总体分布函数完全未知或只知其形式不知其参数的情况下提出某些关于总体的假设,根据样本对所提出的假设做出判断是接受还是拒绝。 2.基本思想:小概率事件原理,假设检验,步骤: (1)提出
16、原假设H0和备选假设H1 (2)确定检验统计量 (3)对显著性水平确定拒绝域 (4)抽样检验,假设检验,两类错误 弃真错误: H0为真拒绝H0 纳伪错误: H0为假接受H0我们这里的假设检验只控制了犯第一类错误的概率,未控制犯第二类错误的概率,假设检验,分布拟合:在很多场合下,我们连总体服从什么分布也无法知道,这时我们需要对总体的分布进行检验,这正是分布拟合检验要解决的问题。 原假设H0:F(x)=F0(x)(X为离散时用分布律),方差分析,方差分析是数理统计的基本方法之一,是分析数据的一种重要工具,在生产实践中,用不同的生产方法生产同一种产品,比较各种生产方法对产品的影响是经常遇到的问题,方
17、差分析正是鉴别各因素效应的一种有效的统计方法,它是在二十世纪二十年代由美国统计学家R.A.Fisher首先使用到农业试验上去的。,方差分析引言,在科学试验和生产实践中,影响一事物的因素往往是很多的例如,在化工生产中,有原料成分,原料剂量,催化剂、反应温度、压力、溶液浓度、反应时间、机器设备及操作人员的水平等因素每一因素的改变都有可能影响产品的数量和质量有些因素影响较大,有些较小为了使生产过程得以稳定,保证优质、高产,就有必要找出对产品质量有显著影响的那些因素,方差分析引言,为此,我们需进行试验方差分析就是根据试验的结果进行分析,鉴别各个有关因素对试验结果影响的有效方法 方差分析是数理统计的基本
18、方法之一,是分析数据的一种重要工具,它是在二十世纪二十年代由美国统计学家R.A.Fisher首先使用到农业试验上去的。,方差分析基本概念,在试验中,我们将要考察的指标称为试验指标影响试验指标的条件称为因素 因素可分为两类,一类是人们可以控制的(可控因素);一类是人们不能控制的例如,化学反应温度、原料剂量、溶液浓度等是可以控制的;而测量误差、气象条件等一般是难以控制的以下我们所说的因素都是指可控因素。,因素所处的状态,称为该因素的水平(见下述各例)如果在一项试验中只有一个因素在改变称为单因素试验,如果多于一个因素在改变称为多因素试验,方差分析引例,例l 设有三台机器,用来生产规格相同的铝合金薄板
19、取样,测量薄板的厚度精确至千分之一厘米得结果如表所示,这里,试验的指标是薄板的厚度机器为因素,不同的三台机器就是这个因素的三个不同的水平我们假定除机器这一因素外,材料的规格、操作人员的水平等其它条件都相同这是单因素试验试验的目的是为了考察各台机器所生产的薄板的厚度有无显著的差异即考察机器这一因素对厚度有无显著的影响,方差分析引例,例2:下面列出了随机选取的、用于生产计算器的四种类型的电路的响应时间(以毫秒计),试验的指标是电路的响应时间电路类型为因素,目的是为了考察各种类型电路的响应时间有无显著差异,即考察电路类型这一因素对响应时间有无显著的影响,方差分析引例,例3:火箭使用了四种燃料、三种推
20、进器作射程试验。每种燃料与每种推进器的组合各进行了一次试验,得火箭射程(单位:海里)如表。,方差分析引例,这里试验指标是射程,推进器和燃料是因素,它们分别有3个、4个水平这是一个双因素的试验试验的目的在于考察在各种因素的各个水平下射程有无显著的差异,即考察推进器和燃料这两个因素对射程是否有显著的影响,方差分析,单因素 双因素,单因素方差分析,1.基本概念我们把试验中要考察的那些可以控制的条件称为试验的因素。为了考察一个因素对试验的影响,一般将它严格控制在几个不同的状态上,每个状态称为它的一个水平。如果一次试验中只有一个因素在改变,而其它因素保持不变,则称它为单因素试验。,单因素方差分析,2.
21、数据表,单因素方差分析,3.数学模型,,,单因素方差分析,4.统计分析:,Qe只与试验误差有关,称为误差平方和(组内偏差平方和);而QA是各组平均值与总平均值的离差平方和,反映各总体均值之间的差异程度,称为系统误差(组间偏差平方和),单因素方差分析,5.检验统计量和拒绝域,单因素方差分析,6.方差分析表,回归分析,在客观世界中,普遍存在着变量之间的关系确定性的和非确定性的,确定性关系可由函数表示,非确定性关系不具有函数关系(称这种关系为相关关系),如人的身高和体重;人的血压和年龄;气象中的温度和湿度;水、水泥、沙、石的配比和混凝土的抗压强度;回归分析是研究相关关系的一种数学工具,是数理统计的基
22、本方法之一。,一元线性回归,1.基本概念由于y是R.V.,对于x的每一确定值,y有它的分布,y的数学期望随x的取值而定,即是x的函数,记为(x) ,称之为y关于x的回归。若(x)为线性函数,称为一元线性回归。,一元线性回归,2. 散点图对x的一组不完全相同的值 作独立试验得到n对观察结果这n对观察结果就是一个容量为n的样本。要求 ,首先需要推测它的形式,方法是将每对观察结果在直角坐标系中描出它的相应点,这种图称为散点图。根据散点图的形状,结合数学知识粗略给出它的形式。,一元线性回归,3.数学模型,一元线性回归,4.回归系数a和b的估计,上面的可通过计数器中的统计功能得到,一元线性回归,5.回归
23、方程的显著性检验线性假设的显著性检验,一元线性回归,6.预测区间,一元线性回归,7.控制预测的反问题,线性回归例,K.Pearson收集了父亲身高和儿子身高的数据如下,F.Galton曾断言:“儿子身高会受到父亲身高的影响,但身高偏离父代平均水平的父亲,其儿子身高有回归到子代平均水平的趋势”。试问以上这组数据能证实这一论断吗?,农作物施肥效果分析,某研究所为了研究N、P、K三种肥料对土豆和生菜的作用,分别对每种作物进行了三组实验,实验中将每种肥料的施用量分为10个水平,在考察其中一种肥料的施用量与产量关系时,总是将另两种肥料固定在第7个水平上,实验数据如下列表格所示,其中ha表示公顷,t表示吨,kg表示千克,试建立反映施肥量与产量关系的模型,并从应用价值和如何改进等方面作出评价。,农作物施肥效果分析,农作物施肥效果分析,农作物施肥效果分析,问题分析:通过分析,该问题属于概率统计中的回归问题,分析方法和步骤是 必要假设:回归分析的前提条件,农作物施肥效果分析,氮肥对生菜图,磷肥对生菜图,钾肥对生菜图,氮肥对土豆图,磷肥对土豆图,钾肥对土豆图,