1、/wEPDwUKMjAzND第一章:概率统计基础知识(1)(3)对并和交都适用。(4)对偶律:运算的时候很受用。也很常用!2概率的古典定义及其简单计算 若事件 a 含有 k 个样本点,则事件 a 的概率为:排列与组合的定义及其计算公式如下: 注意:本资料由淘宝店铺“云逸数码考试学习资料”独家发出,旺旺 ID:李荣2011114520 淘宝店铺地址:http:/ 请查看你在淘宝购买的店铺是否为此店铺。没有在本店铺购买而得到此文档,均为业余卖家盗取我店视频课件及资料,你的课件不会及时更新,是否能完全更新也将得不到保障。并可以将此内容截图,质问卖家课件来源。3概率的统计定义 若在 n 次重复试验中,
2、事件 a 发生次,则事件 a 发生的频率为: 4掌握事件的互不相容性和概率的加法法则 性质 4:事件 a 与 b 的并的概率为: 这个性质称为概率的加法法则。特别若 a 与 b 互不相容,则:典型考题: 已知 p(a)=0.3,p(b)=0.7,p(ab)=0.9,则事件 a 与 b( ) a.互不兼容 b.互为对立事件c.互为独立事件 d.同时发生的概率大于 0 /wEPDwUKMjAzND考点二、随机变量及其分布 其中 x,和 p(x)与 dx 符号含义要懂。方差:用来表示分布的散布大小,用 var(x) 表示,方差大意味着分布的散布程度较大,也即比较分散,方差小意味着分布的散布程度小,也
3、即分布较集中。方差的计算公式是:标准差:方差的量纲是 x 的量纲的平方,为使表示分布散布大小的量纲与x 的量纲相同,常对方差开平方,记它的正平方根为或,并称它为 x 的标准差: 由于与 x 的量纲相同,在实际中更常使用标准差表示分布的散布大小,但它的计算通常是通过先计算方差,然后开方获得。2. 随机变量 (或其分布)的均值与方差的运算性质: 这个性质可以推广到三个或更多个随机变量场合。(3)设随机变量 x1与 x2独立 (即 x1取什么值不影响另一个随机变量 x2的取值,这相当于两个试验的独立性),则有: 这个性质也可推广到三个或更多个相互独立的随机变量场合。注意:方差的这个性质不能推到标准差
4、场合,即对任意两个相互独立的随机变量 x1与 x2 , 而应该是 或者说,对相互独立的随机变量来说,方差具有可加性,而标准差不具有可加性。3二项分布、泊松分布及其均值、方差和标准差的计算,了解超几何分布 设 x 表示 n 次独立重复试验中成功出现的次数,显然 x 是可以取0,1,n 等 n+1 个值的离散随机变量,且它的概率函数为: 这个分布称为二项分布,记为 b(n,p) 4.连续随机变量的分布密度函数和概率密度函数 正态分布的概率密度函数有如下形式: 它的图形是对称的钟形曲线,称为正态曲线。见图 1.210。均匀分布在两端点 a 与 b 之间有一个恒定的概率密度函数,常记为 u(a,b)
5、。这里“均匀“是指随机点落在区间(a, b) 内任一的机会是均等的,从而在相等的小区间上的概率相等。5熟悉中心极限定理,样本均值的(近似)分布 定理 2(中心极限定理) 设为 n 个相互独立同分布的随机变量,其共同分布不为正态或未知,但其均值和方差都存在,则在 n 相当大时,样本均值近似服从正态分布。这个定理表明:无论共同的分布是什么 (离散分布或连续分布,正态分布或非正态分布),只要独立同分布随机变量的个数 n 相当大, 的分布总近似于正态分布,这一结论是深刻的,也是重要的,这说明平均值运算常可从非正态分布获得正态分布。【例题】设 x 与 y 为相互独立的随机变量,且 var(x)=4,va
6、r(y)=9,则随机变量 z=2x-y 的标准差为( )。a. 1 b. c. 5 d. 【例题】设某二项分布的均值等于 3,方差等于 2.7,则二项分布参数 p=( )。a. 0.9 b.0.1 c.0.7 d. 0.3 【例题】某种型号的电阻服从均值为 1000 欧姆,标准差为 50 欧姆的正态分布,现随机抽取一个样本量为 100 的样本,则样本均值的标准差为( )。a、50 欧姆 b、10 欧姆c、100 欧姆 d、5 欧姆 注:新方差=原方差/n /wEPDwUKMjAzND考点三、统计基础知识1熟悉频数(频率)直方图 直方图可有各种形状,质量管理中分析它们出现的原因是一件很有意义的工
7、作。2掌握统计量 样本均值、样本中位数和样本众数。对样本均值施行标准化变换,则有: 到这里还是标准正态!当用样本标准差 s 代替上式中的总体标准差 ,则上式 u 变量改为 t 变量,自由度为 n-1 的标准正态分布 n(0,1)也随之改为“自由度为 n-1 的 t 分布”,记为 t(n-1),即:(2) x2分布,卡方分布设是来自正态总体的一个样本,则其样本方差的 n-1 倍(也即离差平方和)除以总体方差的分布是自由度为 n-1 的 x2分布,记为 x2(n-1),即:其中 n-1 称为分子自由度或第 1 自由度;m-1 称为分母自由度或第 2 自由度。f 分布的概率密度函数在正半轴上呈偏态分
8、布,参见图 1.3-10 。点估计仅仅给出参数一个具体的估计值,但是没有给出估计的精度,而区间估计是用一个区间来对未知参数进行估计,区间估计体现了估计的精度。精度就是误差大小,反映出来可以表示成区间的范围。基本思想是:根据所获样本,用统计分析的方法,对总体 x 的某种假设 h0做出接受或拒绝的判断。具体步骤是:2选择检验统计量,给出拒绝域的形式 注意:是考虑拒绝域而不是接受域。为什么?理由在后边。具体的拒绝域的取值需要根据显著水平,环环相扣。3. 给出显著性水平由于 的关系,我们确定一个适当的 水平就行了。然后,临界值就能算出来。但注意由于对称分布,要用 /2!0.05/2=0.025。4.
9、确定临界值 c,给出拒绝域5. 判断 u 统计量是标准化正态分布统计量!/wEPDwUKMjAzND第二章:常用统计技术考点一、方差分析 方差分析不是简单分析方差,通过方差分析因子的显著与否。方差只是手段。对结果的影响是否显著。要用到假设检验。零假设,备择假设。但是假设检验的前提条件是:正态分布,等方差,观测相互独立。也就是大纲里讲的三项基本假定。因子 a,有 r 个水平,也就是取值的情况,在试验中每个水平被重复 m 次。那么总共可以得到多少个结果观测值呢?n=r*m 个。每个水平的和,以及均值,分别共有 r 个。总和为 t,总均值为 y。离差平方和,通俗来讲,就是每个值离开平均值的平方和。先
10、平方,再求和。能反映离散程度,波动情况。那么,什么因素造成观测值的波动呢?如果解释因子的离差平方和能够和结果的离差平方和很一致,那么这个因子就是显著的。这里,因子平方和的计算很有讲究。首先,组间方差,也就是平方和,是用每个水平的均值与总均值相比较来求。因每个水平被重复试验 m 次,还要乘以 m 。总平方和的求解概念上很简单,但计算量比较大。 因此,有个简便计算公式,每个观测的平方,求和;总和 t 平方,除以n=r*m;然后两者相减。大家看一下,教材 78 页的公式是不是这样?同样,因子平方和的计算也有简便公式。可以这样来理解,每组的(每个水平)的均值平方,因每个水平被重复试验 m 次,故 m
11、次求和;总和 t 平方,除以 n=r*m;然后两者相减。为了能使用 f 分布进行统计检验,还需要用到自由度的概念来构造符合 f分布的统计值。 平方和与自由度之比,得均方差,ms。用 msa/mse=f,构造出 f 统计量。并计算统计值。然后与临界值,门槛值或者阈值,比较。如果大于阈值,拒绝原假设,因子显著!这个,阈值,教材上叫分位数。1- 分位数。f 分位数又有 2 个参数,即分子和分母的自由度。fa和 fe。最后,列出方差分析表。(平方和分解、总平方和、因子平方和、误差平方和,自由度、f 比、显著性) 如果显著,要找出最好的水平,根据均值最好的水平确定。还可以用均值水平图直观显示。最后,还要
12、估计我们统计检验的误差大小。即误差方差,估计值用均方差mse。 重复数不等情况下的方差分析方法。原理一样,做法稍有调整。 。【例题】在单因子方差分析方法中,已确认因子 a 在显著性水平 =0.05下是显著因子,在不查分位数表的情况下,下列命题中正确的是( )。a、在 =0.10 下,a 是显著因子 b、在 =0.10 下,a 不是显著因子c、在 =0.01 下,a 是显著因子 d、在 =0.01 下,a 不是显著因子【例题】在单因子方差分析中,因子 a 有 4 个水平,各水平下的重复试验数分别为 8,5,7,6。根据试验结果已算得因子 a 的平方和 as=167.53,误差平方和 se=337
13、.17。由此可算得统计量 f 的值为( )。a、 2.73 b、5.23 c、3.64 d、6.30 msa=167.53/(3-1),mse=337.17/(8+5+7+6-1-2),f=msa/mse考点二、回归分析1.样本相关系数的定义、计算及其检验方法 协方差除以两个变量的标准差乘积就是相关系数。相关系数的计算方法公式很有规律 其实是方差公式的主要部分。2用最小二乘估计建立一元线性回归方程,检验方法,预测 基本思想是方程的估计值与实际观测值的之间的残差平方和最小,所以英文名叫 gls.一般最小二乘法。残差平方和,离差平方和,回归平方和 下标 r 表示回归/wEPDwUKMjAzND考点
14、二、回归分析 先直观查看因子间有无交互作用。画指标均值图即可,初学要能看懂。p99-100。试验设计:因子水平数,表头要留出交互作用的位置,二水平因子交互也可看做一个二水平因子。p101。设计表头时,技术性比较强,先放有交互的因子,然后查交互表,(横竖相交点上的数字为对应列号)在相应列标上,然后把余下的因子放在空白列上。方差分析法。各列平方和 s 计算。因子的平方和比较简单,就是各列平方和。关键是误差的平方和和交互作用的平方和。误差平方和=所有空白列的平方和之和。误差自由度也是空白列自由度之和。交互作用的平方和为所在列的平方和。交互作用的自由度=因子自由度之积。但是,如果交互作用有时候要占 2
15、 列甚至以上,那么交互的自由度就是所占各列自由度之和。因为如果每一列的自由度是 2,交互的自由度是 4 的话,就需要占 2 列。下面是写出方差分析表。平方和,自由度,均方,f 比值。查表得临界 f 值,比较。大于者显著。最佳条件的选择先看交互作用,当做一个新变量因子,若交互显著,选最优的水平搭配。完后就不再单独看 ab。若不显著,单独看 ab。若交互显著,选最优的水平搭配。要分别计算不同搭配的指标均值,最大者为最优。【例题】某零件的长度 x 和质量 y 的相关系数为 0.68,经技术改进后,每个零件的长度缩短 0.2 厘米,质量降低 0.5 克,新零件的长度和质量的相关系数为( )。a、0.8
16、6 b、0.50 c、0.68 d、-0.68【例题】根据两个变量的 18 对观测数据建立一元线性回归方程。在对回归方程作检验时,残差平方和的自由度为( )。a、18 b、17 c、16 d、1 例题:为提高某产品的质量指标,需考虑 3 个三水平因子:a、b、c,把这3 个因子依次安排在正交表 l9(34)的前三列上,通过试验和计算获得各列各水平的平均值如下:a b c 水平 1 4.08 3.72 0.70 水平 2 3.41 3.47 3.91 水平 3 3.69 3.99 6.57 在质量指标愈大愈好的场合,利用直观分析应选取的较好因子水平组合是()。a、a1b3c3 b、a2b2c1
17、c、a1b1c3 d、a3b3c3key-a/wEPDwUKMjAzND第三章:抽样检验 考点一、基本概念 1按检验特性值的属性可以将抽样检验分为计数抽样检验和计量抽样检验两大类。计数抽样检验又包括计件抽样检验和计点抽样检验。例题:某车间从生产线上随机抽取 1000 个零件进行检验,发现 5 个产品有a 类不合格;4 个产品有 b 类不合格;2 个产品既有 a 类又有 b 类不合格;3 个产品既有 b 类又有 c 类不合格;5 个产品有 c 类不合格,则该批产品中各类不合格娄和不合格品数如下:接收质量限 aql 是指当一个连续系列批被提交验收抽样时,可允许的最差过程平均质量水平。它是对生产方的
18、过程质量提出的要求,是允许的生产方过程平均质量(不合格品率)的最大值。极限质量 lq 是指对于一个孤立批,为了抽样检验,限制在某一低接收概率的质量水平。它是在抽样检验中对孤立批规定的不应接收的批质量(不合格品率)的最小值。2抽样方案一般用(n,ac)表示抽样方案。这里主要是考虑如何评价一个抽样方案的好坏优劣以及特点。有 3 种 2 类。质量性指标:接收概率及 oc 曲线;两类风险; 经济性指标:平均检验体数与平均检出质量。 2、二项分布计算法超几何分布法可用于任何情况。但计算复杂。当 n 很大时,一般 n/n 0.1时,可用二项分布计算: 此式也是无限总体计体抽检时的接收概率公式。4生产方风险
19、 、使用方风险 在实际工作中,要想同时满足双方利益,同时减小双方风险,唯一的方法是增大样本量,但又势比增大检验成本,所以抽样方案的选择实际上是双方承担风险和经济利益的平稳。【例题】 oc 曲线可以用来( )。a、判断产品是否合格 b、分析抽样方案的判别能力c、判断产品批是否接收 d、判断过程是否处于统计控制状态【例题】分析抽样方案的 oc 曲线,发现现有的抽样方案的使用方风险过大,可以考虑采取的方法是( )。a增大拒收数 b减小接收数c增大批量 d增大样本量e减小样本量/wEPDwUKMjAzND考点二、计数标准型抽样检验 1计数标准型抽样检验就是同时规定对生产方的质量要求和对使用方的质量保护
20、的抽样检验。设计数标准型抽样方案(n;ac),一般规定 =0.05,=0.10。这种抽样方案的oc 曲线应通过 a、b 两点(生产方和使用方风险点)标准型一次抽样表。只要给出 p0与 p1,就可以从中求出样本量 n 和接收数ac。1计数标准型抽样检验 (一)确定质量标准;(二)确定 p0、p 1值;(三)批的组成;(四)检索抽样方案;(五)抽取样本;(六)检验样本;(七)批的判断;(八)批的处置。样本的抽取方法:常考(1)简单随机抽样。指总体中的每个个体都有相同的机会被投到。常采用抽签法、查随机数表法,或掷随机数骰子法。优点:抽样误差小,缺点:比较繁琐。(2)系统抽样法。(等距抽样;机械抽样法
21、)由于系统抽样法操作简便,实施起来不易出差错,因而在生产现场人们乐于使用它。如在某道工序上定时去抽一件产品进行检验,就可以看做是系统抽样的一个例子。但在总体会出现周期性变化。(3)分层抽样法(类型抽样法)它是把一个总体分成若干个子总体(层)然后按规定的比例从各层中抽取样本的方法。优点:样本的代表性好,抽样误差小。缺点是抽样手续比简单随机抽样还要繁琐。(4)整群抽样法它是把一个总体分成许多群,然后随机地抽取若干群,并对抽到的群合检。优点:实施方便。缺点:样本的代表性差,抽样误差大。这种方法常用在工序控制中。考点三、计数调整型抽样检验及 gb/t2828.1 的使用1当过程质量比较理想时,减少样本
22、量,提高检验经济性;而一旦发现过程质量变坏,则增加样本量,以降低使用方风险。这就是调整型抽样方案的设计思想。计数调整型抽样方案不是一个单一的抽样方案,而是由一组严格度不同的抽样方案和一套转移规则组成的抽样体系。2掌握接收质量限 aql (1)主要适用于连续批检验连续批是由同一生产厂在认为相同条件下连续生产的一系列的批。(2)关于接收质量限(aql)。既是质量指标,也是检索要素。在 gb/t2828.1 中,接收质量限是当一个连续批被提交验收抽样时,可允许的最差过程平均质量水平。它反映了使用方对生产过程质量稳定性的要求。4检验严格度的设计思想 gb/t2828.1 规定了三种严格程度不同的检验,
23、这里的严格程度是指提交批所接受检验的宽严程度不同。三种检验分别是:正常检验、加严检验和放宽检验。 5抽样方案类型的选取及平均样本量(asn )曲线1、选择抽样方案类型主要考虑的因素有:产品的检验和抽样的费用。一次抽样方案的平均样本量是固定的,而二次(和五次)的平均样本量低【例题】应用计量调整型抽样方案对连续生产的产品批进行验收,当产品检验费用较高、检验耗费时间较长时,更适宜的检验水平是( )。a、样本量较大的检验水平 b、一般检验水平c、使用方风险低的检验水平 d、特殊检验【例题】当检验结果显示过程质量已开始变差时,计数调整型抽样检验应首先通过( )来保护使用方利益。a、加严检验 b、正常检验c、放宽检验 d、暂停检验【例题】使用计数调整型一次正常抽样方案检验 4 批产品,第一批和第四批不被接收,可 以判断( )。 a生产过程平均质量可能不满足要求b下批产品应该使用加严检验c如果继续使用正常检验,生产方风险增大