1、1,1.6 概率与数理统计,1.6.1 概率论的基本概念,2,随机试验:,概率论里所研究的试验有下列特点: 在相同的条件下试验可以重复进行; (2) 每次试验的结果具有多种可能性, 而且在试验之前可以明确试验的所有可能结果; (3) 在每次试验之前不能准确地预言该次试验将出现哪一种结果,1.6.1 概率论的基本概念,1.随机事件,3,样本空间:,给定一个试验, 所有可能的结果的全体构成一个集合, 这个集合称作样本空间, 用大写的希腊字母表示, 这个样本空间中的每一个元素也称作此样本空间的一个样本点, 可以用小写的希腊字母表示.,随机事件:,随机事件就是样本空间的子集, 或者说事件就是试验结果的
2、集合, 通常用大写英文字母A, B, C, 等表示.,4,几个特殊的事件,基本事件: 只包括一个样本点, 或者说一个试验结果的事件称为基本事件. 必然事件: 包括整个样本空间的所有元素的事件, 或者就用表示, 则每次试验必然发 生, 因此称为必然事件. 不可能事件: 不包括任何元素的空集, 即每次试验一定不会发生, 称为不可能事件, 用表示, 则=.,5,事件的包含,事件的关系,事件的相等,事件的并(和),事件的交(积),对立事件,事件的差,互不相容事件,6,完备事件组,若事件A1,A2,An为两两互不相容事件, 并且A1+A2+An=, 称构成一个完备事件组或构成一个划分.,最常用的完备事件
3、组是某事件A与它的逆,7,例1 掷一颗骰子的试验,观察出现的点数,事件A表示“奇数点“, 事件B表示“点数小于5“, C表示“小于5的偶数点“. 用集合的列举表示法表示下列事件:,8,解:,=1,2,3,4,5,6 A=1,3,5 B=1,2,3,4 C=2,4 A+B=1,2,3,4,5 AB=5 BA=2,4 AB=1,3 AC= C-A=2,4,9,例2,从一批产品中每次取出一个产品进行检验(每次取出的产品不放回), 事件Ai表示第i次取到合格品(i=1,2,3). 试用事件的运算符号表示下列事件: 三次都取到了合格品; 三次中至少有一次取到合格品; 三次中恰有两次取到合格品; 三次中最
4、多有一次取到合格品.,10,解:,三次全取到合格品: A1A2A3 三次中至少有一次取到合格品: A1+A2+A3 三次中恰有两次取到合格品:,三次中至多有一次取到合格品:,11,2. 概率,给定事件A, 存在着一个正数P 与之对应, 称之为事件A的概率, 记作P(A)或PA. 最高的发生概率为1, 表示必然发生. 最低的概率为0, 表示不可能发生. 而一般的随机事件的概率介于0与1之间.,12,3.古典概型,有一类试验的特点是: (1)每次试验只有有限种可能的试验结果 (2)每次试验中,各基本事件出现的可能性完全相同. 具这两个特点的试验称为古典概型试验. 在古典概型的试验中, 如果总共有n
5、个可能的试验结果, 因此每个基本事件发生的概率为1/n, 如果事件A包含有m个基本事件, 则事件A发生的概率则为m/n.,13,放回抽样,假设一副牌有52张, 将它们编号为1,2,52. 每次抽出一张观察后再放回去(这样下一次这张牌仍有机会被抽到), 这叫放回抽样. 假设共抽了5次, 共有多少种可能的抽法? 第一次有52种抽法, 在第一次的每一种抽法中, 第二次又有52种抽法, , 因此抽5次共有5252525252=525 种抽法. 一般地, 从n个元素中进行m次放回抽样, 则共有nm种抽法.,14,不放回抽样(排列),还是这52张牌, 每次抽出一张, 但不放回, 则第二次抽时只有51张牌,
6、 第三次就只有50张牌. 如果这样抽5次, 就共有5251504948=52!/47! 种抽法 一般地, 从N个元素中抽取n个(nN), 共有,15,不放回抽样(组合),如果从N个元素中不放回抽样n个, 但不关心其顺序, 比如说(1,2,3)和(3,2,1),(2,3,1)被视作一样, 则称为组合, 因此, 组合的数目要比排列的数目小n!倍, 记作,16,例3 袋内装有5个白球, 3个黑球, 从中任取两个,球, 计算取出的两个球都是白球的概率.,17,例4 一批产品共200个, 废品有6个, 求(1)这批产品的废品率; (2)任取3个恰有一个是废品的概率;(3)任取3个全非废品的概率,解 设P
7、(A), P(A1), P(A0)分别表示(1),(2),(3)中所求的概率,则,18,加法法则,两个互不相容(互斥)事件之和的概率等于它们的概率的和. 即当AB=时,P(A+B)=P(A)+P(B) 实际上, 只要P(AB)=0, 上式就成立.,19,如果n个事件A1,A2,An互不相容, 则 P(A1+A2+An)=P(A1)+P(A2)+P(An),A1,A2,A3,A4,20,若n个事件A1,A2,An构成一完备事件组, 则它们的概率的和为1, 即,P(A1)+P(A2)+P(An)=1 特别地, 两个对立事件概率之和为1, 即,A1,A2,A3,A4,A,A,21,例如 掷3次硬币,
8、 求至少一次正面朝上的概率. 解: 假设A=至少一次正面, 则A=全是反面, 只包含一个基本事件. 基本事件总数为23=8, 因此,经常有一些概率论的较难的题, 直接计算某事件的概率困难, 因此考虑先求此事件的逆事件的概率,22,例5 产品有一, 二等品及废品3种, 若一, 二等品率分别为0.63及0.35, 求产品的合格率与废品率.,解 令事件A表示产品为合格品, A1,A2分别表示一,二等品. 显然A1与A2互不相容, 并且A=A1+A2, 则,P(A)=P(A1+A2)=P(A1)+P(A2)=0.63+0.35=0.98,23,例6 一个袋内装有大小相同的7个球, 4个是白球, 3个为
9、黑球. 从中一次抽取3个, 计算至少有两个是白球的概率.,解 设事件Ai表示抽到的3个球中有i个白球(i=2,3), 显然A2与A3互不相容, 且,24,定义 在事件B已经发生的条件下, 事件A发生的概率, 称为事件A在给定B下的条件概率, 简称为A对B的条件概率, 记作P(A|B). 相应地, 把P(A)称为无条件概率.,4. 条件概率与乘法法则,25,乘法法则 两个事件A,B之交的概率等于其中任一个事件(其概率不为零)的概率乘以另一个事件在已知前一个事件发生下的条件概率, 即P(AB)=P(A)P(B|A) (若P(A)0)P(AB)=P(B)P(A|B) (若P(B)0),26,例7 1
10、0个考签中有4个难签, 3人参加抽签(不放回), 甲先, 乙次, 丙最后, 求甲抽到难签, 甲,乙都抽到难签, 甲没抽到难签而乙抽到难签以及甲,乙,丙都抽到难签的概率.,解 设事件A,B,C分别表示甲乙丙各抽到难签,27,全概率定理 如果事件A1,A2,构成一个完备事件组, 并且都具有正概率, 则对任意一事件B有,用全概率定理来解题的思路, 从试验的角度考虑问题, 一定是将试验分为两步做, 将第一步试验的各个结果分为一些完备事件组A1, A2,An, 然后在这每一事件下计算或给出某个事件B发生的条件概率, 最后用全概率公式综合,28,贝叶斯定理 若A1,A2,构成一个完备事件组, 并且它们都具
11、有正概率,则对于任何一个概率不为零的事件B, 有,贝叶斯定理解题的题型与全概率定理的题型完全一样, 只是要求的是一个条件概率, 是在信息论中的重要公式, 即在二次试验后, 观察者只能看到最后的结果事件B, 却要根据B来推断第一步试验的哪个事件发生了的条件概率P40例1-44,29,在使用全概率公式和贝叶斯公式的题型中, 关键的一步是要使用一完备事件组, 而最常用的完备事件组,是一事件A与它的逆A构成的完备事件组, 这时的全概率与贝叶斯公式为, (应在考试前专门将它们记住).,30,5.事件的独立性,定义 如果事件A发生的可能性不受事件B发生与否的影响, 即P(A|B)=P(A), 则称事件A对
12、于事件B独立.,31,由此定义及条件概率P(A|B)的定义有,32,如A与B独立, 则,33,例8 甲,乙,丙3部机床独立工作, 由一个工人照管, 某段时间内它们不需要工人照管的概率分别为0.9,0.8及0.85. 求在这段时间内有机床需要工人照管的概率以及机床因无人照管而停工的概率.,解 用事件A,B,C分别表示在这段时间内机床甲,乙,丙不需工人照管.依题意A,B,C相互独立, 并且P(A)=0.9, P(B)=0.8, P(C)=0.85 则这段时间内有机床需要工人照管的概率为,34,而当至少有两部机床需要照管的时候, 就有机床因无人照管而停工了, 这样的事件是,35,按取值情况可将随机变
13、量分为两类:,(1) 离散型随机变量只可能取有限个或无限可列个值.,(2) 非离散型随机变量可能取任何实数.而非离散型随机变量中最常用的为连续型随机变量.,1.6.2 一维随机变量及数字特征,1.随机变量的概念(p42),36,2.离散型随机变量的分布,37,定义 如果随机变量x只取有限个或可列个可能值, 而且以确定的概率取这些不同的值, 则称x为离散性随机变量. 为直观起见, 将x可能取的值及相应概率列成概率分布表如下,此外, x的概率分布情况也可以用一系列等式表示: P(x=xk)=pk (k=1,2,) 这被称作随机变量x的概率函数(或概率分布),38,例9 一批产品的废品率为5%, 从
14、中任意抽取一个进行检验, 用随机变量x来描述废品出现的情况. 并写出x的分布. 解 用x表示废品的个数, 则它只能取0或1两个值. “x=0“表示“产品为合格“, “x=1“表示“产品为废品“, 则概率分布表如下,即Px=0=0.95, Px=1=0.05, 或可写为 Px=k=0.05k0.951-k (k=0,1),39,随机变量的分布函数,定义 若x是一个随机变量(可以是离散型的, 也可以是非离散型的), 对任何实数x, 令F(x)=P(x x) 称F(x)是随机变量x的分布函数,40,例10 求本节例1中的分布函数,其分布函数为,解 在例1中x的概率函数如下表所示:,41,分布函数与概
15、率函数满足关系:,由于 P(x1x2)=F(x2)-F(x1) 因此, 若已知的分布函数F(x), 就能知道在任何一个区间上取值的概率, 从这个意义上说, 分布函数完整地描述了随机变量的变化情况,42,分布函数F(x)具有如下几个性质:,43,两点分布: 只有两个可能取值的随机变量所服从的分布, 称为两点分布. 其概率函数为 P(x=xk)=pk (k=1,2) 概率分布表为:,44,0-1分布: 只取0和1两个值的随机变量所服从的分布称为0-1分布. 其概率函数为 P(x =k)=pk(1-p)1-k (k=0,1) 概率分布表为:,45,连续型随机变量的分布,离散型随机变量,用概率函数来描
16、述即简单又直观。 对于连续型随机变量也希望有一种比分布函数更直观的描述方式。 这就是 “概率密度函数”,46,定义 对于连续型随机变量x, 如果存在一定义在(-, +)上的非负函数(x), 对于任意实数x都有(x)0, 且满足, x落在任意区间内的概率为j(x)在此区间的积分, 即,则称j(x)为x的概率密度函数.,47,用概率密度函数计算x落在任何区间内的概,率如下图所示意.,a,b,x,0,j(x),P(axb),48,概率密度函数的两个性质,(1)(x)0,49,概率密度函数(x)与分布函数F(x)的关系为,x,0,j(x),x,50,例11 已知连续型随机变量x有概率密度,求系数k及分
17、布函数F(x), 并计算P(1.5x2.5) 解 因,51,则j(x)及其图形如下,52,x,当x0时,53,x,当0x2时,54,当x2时,x,55,综合前面最后得,1,2,0,x,F(x),56,将概率密度函数j(x)与分布函数F(x)对照,57,现根据概率密度函数和分布函数分别计算概率P1.5x2.5 根据分布函数计算: P1.5x2.5= P1.5x2.5-P(x=2.5) =F(2.5)-F(1.5)-0 =1-(1.52/4)+1.5=1-0.9375=0.0625 根据概率密度函数进行计算则是,58,4.随机变量的数字特征,通常求出随机变量的分布并不是一件容易的事, 而人们更关心
18、的是用一些数字来表示随机变量的特点, 这些与随机变量有关的数字, 就是随机变量的数字特征. 最常用的数字特征为数学期望, 方差和相关系数.,59,数学期望,数学期望是任何一个随机变量的最重要的也被最广泛使用的数学特征, 英文是expectation, 另一种叫法为均值(mean or everage value) 它的实际意义就是平均值. 但属于一种更为严格的平均值, 和本书后面讲到的统计平均值有一些小差别.,60,定义 假设离散型随机变量x有概率函数Px=xk=pk (k=1,2,.), 若级数,绝对收敛, 则称这级数为x的数学期望, 简称期望或均值, 记为Ex, 即,61,例 若x服从0-
19、1分布, 其概率函数为Px=k=pk(1-p)1-k (k=0,1), 求Ex,解 Ex=0(1-p)+1p=p,62,例12 甲乙两名射手在一次射击中得分(分别用x,h表示)的分布律如下表所示, 试比较甲,乙两射手的技术.,解 Ex=10.4+20.1+30.5=2.1Eh=10.1+20.6+30.3=2.2 这表明, 如果进行多次射击, 他们得分的平均值分别是2.1和2.2, 故乙射手较甲射手的技术好.,63,定义 设连续型随机变量x有概率密度j(x), 若积分,64,例13 计算在区间a,b上服从均匀分布的随机变量x的数学期望. 解 依题意,65,数学期望的性质,常量的期望就是这个常量
20、本身, 即E(c)=c.,(2) 随机变量x与常量c之和的数学期望等于x的期望与这个常量c的和E(x+c)=Ex+c,(3) 常量c与随机变量x的乘积等于这个常量与此随机变量的期望的乘积, (cx)=cEx,(4) 随机变量的线性函数的数学期望等于这个随机变量期望的同一线性函数, 即 E(kx+c)=kEx+c,66,(5) 两个随机变量之和的数学期望等于这两个随机变量数学期望之和.E(x+h)=Ex+Eh,(6) 两个相互独立随机变量乘积的数学期望等于它们数学期望的乘积, 即 E(xh)=ExEh,67,例14 某种无线电元件的使用寿命x是一个随机变量, 其概率密度为,其中l0, 求这种元件
21、的使用寿命.,68,方差,69,如果x是离散型随机变量, 并且 Px=xk=pk (k=1,2,.), 则,可见随机变量的方差是非负数, Dx0, 常量的方差是零. 当x的可能值密集在它的期望值Ex附近时, 方差较小, 反之则方差较大.因此方差的大小可以表示随机变量分布的离散程度,70,例15 计算参数为p的0-1分布的方差,解 根据x的概率函数Px=1=p Px=0=1-p=q 则Ex=0q+1p=p Dx=(0-p)2q+(1-p)2p=p(pq+q2)=pq(p+q)=pq=p(1-p)Ex=p Dx=pq,71,方差的性质,常量的方差等于零 (2) 随机变量与常量之和的方差就等于这个随
22、机变量的方差本身 (3) 常量与随机变量乘积的方差, 等于这常量的平方与随机变量方差的乘积.,(4) 两个独立随机变量之和的方差, 等于这两个随机变量方差的和,72,计算Ex2的办法:,(5) 任意随机变量的方差等于这个随机变量平方的期望与其期望平方之差, 即 Dx=Ex2-(Ex)2,73,例16 计算在区间a,b上服从均匀分布的随机变量x的方差. 解 已知x的概率密度为,在3.1例4中已算出Ex=(a+b)/2,74,定义 如果随机变量x有概率函数,其中0p1, q=1-p, 则称x服从参数为n,p的二项分布. 简记作xB(n,p).,5. 几种重要的分布,(1) 二项分布,75,例17
23、某工厂每天用水量保持正常的概率为3/4, 求最近6天内用水量正常的天数的分布. 解 设最近6天内用水量保持正常的天数为x, 则xB(6,0.75), 因此,76,其分布表如下表所示,分布图:,77,二项分布的期望和方差,78,例 某班有学生23名, 其中有5名女同学, 今从班上任选4名学生去参观展览, 被选到的女同学数x是一个随机变量, 求x的分布.,解 x可取0,1,2,3,4,这5个值, 相应概率为,(2) 超几何分布,79,概率分布表为,概率分布图为:,80,定义 设N个元素分为两类, 有N1个元素属于第一类, N2个元素属于第二类(N1+N2=N). 从中按不重复抽样取n个, 令x表示
24、这n个中第一(或二)类元素的个数, 则x的分布称为超几何分布. 其概率函数为:,81,根据概率分布的性质, 必有,82,超几何分布的数学期望和方差,83,定义 如果随机变量x的概率函数是,(3)普哇松(Poisson)分布,84,普哇松分布的数学期望和方差,85,例17 检查了100个零件上的疵点数, 结果如下表:,试用普哇松分布公式计算疵点数的分布, 并与实际检查结果比较.解,86,计算出来的图表如下所示:,87,(4) 指数分布,定义 如随机变量x的概率密度为,88,指数分布的分布函数,89,对任何实数a,b(0ab), 有,指数分布的数学期望和方差:Ex=l-1 Dx=l-2,90,例1
25、8 某元件寿命x服从参数为l(l-1=1000小时)的指数分布, 3个这样的元件使用1000小时后, 都没有损坏的概率是多少?,P(x1000)=1-P(x1000)=1-F(1000)=e-1 各元件寿命相互独立, 因此3个这样的元件使用1000小时都未损坏的概率为e-3(约为0.05).,解 指数分布的分布函数为,91,定义 如果连续型随机变量x的概率密度为,其中s,m为常数, 并且s0, 则称x服从正态分布, 简记作xN(m,s2). 特别地, 当m=0, s=1时, 称其为标准正态分布, 其概率密度记为j0(x), 这时xN(0,1).,(5) 正态分布,92,j0(x)的图形,x,j
26、0(x),0,1,-1,93,j0(x)除一般概率密度的性质外, 还有下列性质 (1) j0(x)有各阶导数 (2) j0(-x)=j0(x), 偶函数 (3) 在(,0)内严格上升,在(0,)严格下降.在x=0 处达到最大值:,(4) 在x=1处有两个拐点; (5) x轴是j0(x)的水平渐近线,94,Ex=m,正态分布的数学期望和方差,95,一般正态分布与标准正态分布的关系,定理1 如果xN(m,s2), hN(0,1), 其概率密度分布记为j(x)和j0(x), 分布函数分别记为F(x)及F0(x), 则,96,定理2 如果xN(m,s2), 而h=(x-m)/s, 则hN(0,1),9
27、7,例19 xN(0,1), 求P(x1.96), P(x-1.96), P(|x|1.96), P(-1x2), P(x5.9).,解 P(x1.96)=0.975=F0(1.96)P(x-1.96)=P(x1.96)=1-P(x1.96)=1-0.975=0.025=1-F0(1.96)P(|x|1.96)=P(-1.96x1.96)=F0(1.96)-F0(-1.96)=2F0(1.96)-1=0.95P(-1x2)=F0(2)-F0(-1)=F0(2)-1-F0(1)=0.81855P(x5.9)=F0(5.9)=1,98,概括起来, 如果xN(0,1), 则,99,例20 xN(m,
28、s2), P(x-5)=0.045, P(x3)=0.618, 求m及s,100,总体 样本 统计量,1.6.3 数理统计的基本概念,1.基本概念,101,数理统计的任务,在概率论的各个题目中, 随机变量的分布往往是知道的, 是通过某些已知的信息计算另一些信息. 而在实际中, 经常是有一个我们关心的总体X, 我们即不知道它的分布, 也不知道它的数学期望和方差. 但是, 我们可以对其进行反复地试验, 则试验n次, 得到n个样本值, 这n个样本值可以看作是对n个与总体分布相同的样本进行观察而获得的.,102,样本均值,103,样本方差,104,定理1 设(X1,X2,.,Xn)是取自正态总体N(m
29、,s2)的样本, 若,2. 常用的重要结论,105,这个定理是为解决这样的问题,106,定理2 设X1,X2,.,Xn相互独立, XiN(0, 1), i=1,2,.,n, 则,即n个相互独立的标准正态分布的随机变量的平方和服从n个自由度的c2(n)分布,107,定理3 设(X1,X2,.,Xn)是取自正态总体N(m,s2)的样本, 则有,108,此定理的用处在于,109,定理4 设两个随机变量x与h相互独立, 并且xN(0,1), hc2(n), 则,110,推论 设(X1,X2,.,Xn)是取自正态总体N(m,s2)的样本,111,此推论的意义在于,112,定理5 设两个随机变量x1和x2
30、相互独立, 且x1c2(n1),x2c2(n2), 则有,113,推论 设设X1,X2,.,Xn和Y1,Y2,.,Ym分别来自两个相互独立的正态总体,114,1.6.4参数估计,人们经常遇到的问题是如何选取样本以及根据样本来对总体的种种统计特征作出判断。 实际工作中碰到的随机变量(总体)往往是分布类型大致知道, 但确切的形式并不知道, 亦即总体的参数未知. 要求出总体的分布函数F(x)(或密度函数j(x), 就等于要根据样本来估计出总体的参数. 这类问题称为参数估计.,115,1.参数的点估计,(1)矩估计法,116,(2) 最大似然估计法,现在要根据从总体x中抽到的样本(X1,X2,.,Xn
31、), 对总体分布中的未知参数q进行估计. 最大似然法是要选取这样的估计值, 当它作为q的估计值时, 使观察结果出现的可能性最大. 对于离散型的随机变量就是估计概率函数中的参数q, 对于连续型的随机变量就是估计概率密度中的q.,117,设x为连续型随机变量, 它的分布函数是F(x;q), 概率密度是j(x;q), 其中q是未知参数, 可以是一个值, 也可以是一个向量, 由于样本的独立性, 则样本(X1,X2,.,Xn)的联合概率密度是,对每一取定的样本值x1,x2,.,xn是常数, L是参数q的函数, 称L为样本的似然函数,118,设x为离散型随机变量, 有概率函数P(x=xi)=p(xi;q)
32、, 则似然函数,119,最大似然估计值,120,例21 已知,x1,x2,.,xn为x的一组样本观察值, 求q的最大似然估计.,121,解 似然函数,122,例22 已知x服从正态分布N(m,s2), (x1,x2,.,xn)为x的一组观察值, 用最大似然估计法估计m,s2的值.,123,解似然方程组,124,例23 求普哇松分布中参数l的最大似然估计. 解 已知总体x的概率函数为,125,因此,126,127,2.参数的区间估计,用点估计来估计总体参数, 即使是无偏有效的估计量, 也会由于样本的随机性, 从一个样本算得估计量的值不一定恰是所要估计的参数真值. 而且, 即使真正相等, 由于参数
33、值本身是未知的, 也无从肯定这种相等. 到底二者相差多少呢? 这个问题换一种提法就是, 根据估计量的分布, 在一定的可靠程度下, 指出被估计的总体参数所在的可能数值范围. 这就是参数的区间估计问题.,128,区间估计的具体做法是, 找两个统计量,129,区间估计示意图,1-a,a/2,a/2,1-a为置信系数, 置信概率或置信度 a为检验水平,130,(1) 总体分布未知,利用切贝谢夫不等式进行估计. 因为对任何随机变量x(不论它的分布如何), 只要Ex,Dx存在, 对任给的正数e0, 满足,131,从总体x中抽取样本(X1,X2,.,Xn),132,若要求,133,一般地, 若要求,134,
34、切贝谢夫区间估计示意图,1-a,a/2,a/2,135,例24 某灯泡厂某天生产了一大批灯泡, 从中抽取了10个进行寿命试验, 得数据如下(单位:小时): 1050, 1100, 1080, 1120, 1200, 1250, 1040, 1130, 1300, 1200 已知其方差Dx=8, 试找出灯泡的平均寿命区间(a=5%).,136,(2)正态总体,137,则,138,例如, 当a=0.05时, ua=1.96, 有,139,查表示意图,x,0,a/2,1-a/2,ua,140,例25 某灯泡厂某天生产了一大批灯泡, 假设灯泡的寿命x服从正态分布, xN(m,8), 从中抽取了10个进
35、行寿命试验, 得数据如下(单位:小时): 1050, 1100, 1080, 1120, 1200, 1250, 1040, 1130, 1300, 1200,试找出平均寿命区间(a=0.05). 解 因为a=0.05, 所以ua=1.96,而n=10, s=2.8284,141,例26 已知某炼铁厂的铁水含碳量在正常生产情况下服从正态分布, 其方差s2=0.1082. 现在测定了9炉铁水, 其平均含碳量为4.484. 按此资料计算该厂铁水平均含碳量的置信区间, 并要求有95%的可靠性. 解 设该厂铁水平均含碳量为m, 已知a=5%, 所以ua=1.96, m的置信系数为95%的置信区间是,1
36、42,引例1 抛掷一枚硬币100次, “正面“出现了40次, 问这枚硬币是否匀称? 若用x描述抛掷一枚硬币的试验, “x=1“及“x=0“分别表示“出现正面“和“出现反面“, 上述问题就是要检验x是否服从p=1/2的0-1分布?,1.6.5 假设检验,143,引例2,从1975年的新生儿(女)中随机地抽取20个, 测得其平均体重为3160克, 样本标准差为300克. 而根据过去统计资料, 新生儿(女)平均体重为3140克. 问现在与过去的新生儿(女)体重有无显著差异(假设新生儿体重服从正态分布)? 若把所有1975年新生儿(女)体重体现为一个总体x, 问题就是判断Ex=3140是否成立?,14
37、4,引例3,在10个相同的地块上对甲,乙两种玉米进行对比试验, 得如下资料(单位:公斤),从直观上看, 二者差异显著. 但是一方面由于抽样的随机性, 我们不能以个别值进行比较就得出结论; 另一方面直观的标准可能因人而异. 因此这实际上需要比较两个正态总体的期望值是否相等.,145,这种作为检验对象的假设称为待检假设, 通常用H0表示. 例如, 引例1的假设是 H0: xB(1,0.5) 引例2的假设是 H0: Ex=3140 引例3的假设是 H0: EX=EY (X与Y是两种玉米的产量期望值),如何根据样本的信息来判断关于总体分布的某个设想是否成立, 也就是检验假设H0成立与否的方法.,146
38、,置信区间方法,用置信区间的方法进行检验, 基本思想是这样的: 首先设想H0是真的成立; 然后考虑在H0条件下, 已经观测到的样本信息出现的概率. 如果这个概率很小, 这就表明一个概率很小的事件在一次试验中发生了. 而小概率原理认为, 概率很小的事件在一次试验中是几乎不可能发生的, 也就是说导出了一个违背小概率原理的不合理的现象. 这表明事先的设想H0是不正确的, 因此拒绝原假设H0. 否则, 不能拒绝H0.,147,至于什么算是“概率很小“, 在检验之前都事先指定. 比如概率为5%, 1%等, 一般记作a. a是一个事先指定的小的正数, 称为显著性水平或检验水平.,148,两类错误,由于人们
39、作出判断的依据是样本, 也就是由部分来推断整体, 因而假设检验不可能绝对准确, 它也可能犯错误. 其可能性的大小, 也是以统计规律性为依据的, 所可能犯的错误有两类. 第一类错误是: 原假设H0符合实际情况, 而检验结果把它否定了, 这称为弃真错误. 第二类错误是: 原假设H0不符合实际情况, 而检验结果把它肯定下来了, 这称为取伪错误.,149,一个正态总体的假设检验,设总体为xN(m,s2). 关于总体参数m,s2的假设检验问题, 一般有下列四种: (1) 已知方差s2, 检验假设H0:m=m0; (2) 未知方差s2, 检验假设H0:m=m0; (3) 未知期望m, 检验假设H0:s2=
40、s02; (4) 未知期望m, 检验假设H0:s2s02; 其中H0中的s02, m0都是已知数.,150,方差已知对期望值m的检验步骤: (1) 提出待检假设H0:m=m0(m0已知); (2) 选取样本(X1,.,Xn)的统计量, 如H0成立,则,(3) 根据检验水平a, 查表确定临界值ua, 使P(|U|ua)=a, 即F0(ua)=1-a/2. (4) 根据样本观察值计算统计量U的值u并与临界值ua比较 (5) 若|u|ua则否定H0, 否则接收H0.,151,例27 根据长期经验和资料的分析, 某砖瓦厂生产砖的“抗断强度“x服从正态分布, 方差s2=1.21. 从该厂产品中随机抽取6
41、块, 测得抗断强度如下(单位: kg/cm2):32.56, 29.66, 31.64, 30.00, 31.87, 31.03 检验这批砖的平均抗断强度为32.50kg/cm2是否成立(a=0.05)?,152,解 设H0:m=32.50. 如果H0正确, 则样本(X1,., X6)来自正态总体N(32.50, 1.12), 且,153,最后可以下结论否定H0, 即不能认为这批产品的平均抗断强度是32.50kg/cm2.,154,方差未知对期望值m的检验步骤: (1) 提出待检假设H0:m=m0(m0已知); (2) 选取样本(X1,.,Xn)的统计量, 如H0成立,则,(3) 根据检验水平
42、a, 查表确定临界值ta, 使P(|T|ta)=a; (4) 根据样本观察值计算统计量T的值t并与临界值ta比较; (5) 若|t|ta则否定H0, 否则接收H0.,155,例28,从1975年的新生儿(女)中随机地抽取20个, 测得其平均体重为3160克, 样本标准差为300克. 而根据过去统计资料, 新生儿(女)平均本重为3140克. 问现在与过去的新生儿(女)体重有无显著差异(假设新生儿体重服从正态分布)?(a=0.01) 若把所有1975年新生儿(女)体重体现为一个正态总体N(m,s2), 问题就是判断m=Ex=3140是否成立?,156,解 待检假设H0:m=3140. 由于s2未知
43、, 自然想到用S2代表s2. 则如果H0成立, 则,157,未知期望对正态总体方差的假设检验步骤: (1) 建立待检假设H0:s2=s02; (2) 如H0成立, 则,(3) 由给定的检验水平a查表求ca2,cb2满足:,(4) 计算c2的值与ca2,cb2比较; (5) 若c2cb2或c2ca2拒绝H0否则接收H0;,158,例29 某炼铁厂的铁水含碳量x在正常情况下服从正态分布. 现对操作工艺进行了某些改进, 从中抽取5炉铁水测得含碳量数据如下: 4.412, 4.052, 4.357, 4.287, 4.683 据此是否可以认为新工艺炼出的铁水含碳量的方差仍为0.1082(a=0.05). 解 建立待检假设H0:s2=0.1082; 在H0成立时, 样本来自总体N(m,0.1082), 这时,159,对于给定的检验水平a=0.05, 可查表确定临界,因而应拒绝H0, 即方差不能认为是0.1082,