1、统计学的作用,惊人的预测,惊人的预测,惊人的预测,惊人的预测,第一章:数理统计学的基本概念,对随机现象进行观测、试验,以取得有代表性的观测值,对已取得的观测值进行整理、分析,作出推断、决策,从而找出所研究的对象的规律性,第一节 基本概念,一、总体和个体,二、样本 简单随机样本,一、总体和个体,一个统计问题总有它明确的研究对象.,研究对象的全体称为总体(母体),,组成总体的每个元素称为个体.,总体,然而在统计研究中,人们关心总体仅仅是关心其每个个体的一项(或几项)数量指标和该数量指标在总体中的分布情况. 这时,每个个体具有的数量指标的全体就是总体.,所研究的对象的某个(或某些)数量指标的全体称为
2、总体,它是一个随机变量(或多维随机变量),记为X .,X 的分布函数和数字特征称为总体分布函数和总体数字特征.,总体:,例如:研究某批灯泡的寿命时,总体X是这批灯泡的寿命,而其中每个灯泡的寿命就是个体。,每个 灯泡的寿命,个体,又如:研究某批国产轿车每公里的耗油量时,总体X是这批轿车每公里的耗油量,而其中每辆轿车的耗油量就是个体。,类似地,在研究某地区中学生的营养状况时,若关心的数量指标是身高和体重,我们用X和Y分别表示身高和体重,那么此总体就可用二维随机变量(X,Y) 来表示,而每个学生的身高和体重就是个体.,为推断总体分布及各种特征,按一定规则从总体中抽取若干个体进行观察试验,以获得有关总
3、体的信息,这一抽取过程称为 “抽样”,所抽取的部分个体称为样本. 样本中所包含的个体数目称为样本容量.,二、样本 简单随机样本,1)抽样和样本,样本的抽取是随机的,每个个体是一个随机变量.容量为n的样本可以看作n维随机变量,用X1,X2,Xn表示.,而一旦取定一组样本,得到的是n个具体的数 (x1,x2,xn),称其为样本的一个观察值,简称样本值 .,2.X1,X2,Xn相互独立.,由于抽样的目的是为了对总体进行统计推断,为了使抽取的样本能很好地反映总体的信息,必须考虑抽样方法.最常用的一种抽样方法叫作“简单随机抽样”,它要求抽取的样本满足下面两点:,1. 样本X1,X2,Xn中每一个Xi与所
4、考察的总体X有相同的分布.,2)简单随机样本,由简单随机抽样得到的样本称为简单随机样本,它可以用与总体独立同分布的n个相互独立的随机变量X1,X2,Xn表示.,简单随机样本是应用中最常见的情形,今后,当说到“X1,X2,Xn是取自某总体的样本”时,若不特别说明,就指简单随机样本.,设X1,X2,Xn 是总体X的一个简单随机样本,,1)若X为离散型总体,其分布律是p(x),则X1,X2,Xn的联合分布律为,p(x1) p (x2) p (xn),2)若X为连续型总体,其概率密度是f(x),则X1,X2,Xn的联合分布律为,f (x1) f (x2) f (xn),事实上我们抽样后得到的资料都是具
5、体的、确定的值. 如我们从某班大学生中抽取10人测量身高,得到10个数,它们是样本取到的值而不是样本. 我们只能观察到随机变量取的值而见不到随机变量.,3)总体、样本、样本值的关系,统计是从手中已有的资料 样本值,去推断总体的情况 总体分布F(x)的性质.,总体分布决定了样本取值的概率规律,也就是样本取到样本值的规律,因而可以由样本值去推断总体.,样本是联系二者的桥梁,4)经验分布函数,设X1,X2,Xn为取自总体X的样本, x1,x2,xn为其观察值.对于每个固定的x,设事件Xx在n次观察中出现的次数为vn(x),于是事件Xx发生的频率为:,显然Fn(x)为不减右连续函数,且,称 Fn(x)
6、 为样本分布函数或经验分布函数.,定理(格列文科)当n时,经验分布函数 Fn(x) 依概率1关于x一致收敛与总体分布函数,即,定理表明:当样本容量n充分大时,经验分布函数 Fn(x) 几乎一定会充分趋近总体分布函数F(x),这是用样本来推断总体的理论依据.,第二节 统计量与抽样分布,一、统计量,二、统计学中三个常用分布和上分位点,三、抽样分布定理,一、统计量,由样本值去推断总体情况,需要对样本值进行“加工”,这就要构造一些样本的函数,它把样本中所含的(某一方面)信息集中起来.,定义,若 , 2 已知, 则,是统计量,而,例如:,不是统计量.,也是统计量.,是未知参数,几个常用的统计量,样本均值
7、,样本方差,它反映了总体均值 的信息,它反映了总体方差 的信息,样本k阶原点矩,样本k阶中心矩,k=1,2,它反映了总体 k 阶矩 的信息,它反映了总体 k 阶 中心矩的信息,它们的观察值分别为:,由大数定律可知:,依概率收敛于,例1. 从一批相同的电子元件中随机地抽出8个,测得使用寿命(单位:小时)分别为:2300,2430,2580,2400,2280,1960,2460,2000,试计算样本均值、样本方差及样本二阶矩.,解:,抽样分布,统计量是样本的函数,而样本是随机变量,故统计量也是随机变量,因而就有一定的分布,它的分布称为“抽样分布” .,二、统计学中三个常用分布和上分位点,下面介绍
8、三个来自正态总体的抽样分布.,定义: 设 相互独立,都服从标准正态分布,N(0,1), 则称随机变量:,所服从的分布为自由度为 n 的 分布,记为,分布的概率密度为,处的值.,有所改变.,分布的概率密度图形如下:,性质1.,证 明:,设,相互独立,则,分布的性质:,这个性质称为 分布的可加性.,性质2.,设,且,与,相互独立,则,t 的概率密度为:,定义: 设XN( 0 , 1 ) , Y,所服从的分布为自由度为 n 的 t 分布.记为tt (n).,2、t 分布,,且 X 与 Y 相互,独立,则称变量,n=4,n=10,n=1,t分布的概率密度函数关于t=0对称,且 当n充分大时(n30),
9、其图形与标准正态分布的概率密度函数的图形非常接近.但对于较小的n,t 分布与N (0,1)分布相差很大.,由定义可见,,3、F分布,则称统计量,服从自由度为n1及 n2 的F分布,n1称为第一自由度,,F(n2,n1),定义: 设,X 与 Y 相互独立,,n2称为第二自由度,记作 FF(n1,n2) .,若XF(n1,n2),则X的概率密度为,注意:统计的三大分布的定义、基本性质在后面的学习中经常用到,要牢记!,4、上分位点,定义:设随机变量X的概率密度为 f(x),对于,任意给定的(01),若存在实数x,使得:,则称点x为该概率分布的上分位点,正态分布的上分位点,对标准正态分布变量ZN(0,
10、 1)和给定的,上分位数是由:,PZz =,即 PZz =1-,(z) =1-,确定点z.,如图:,例如, =0.05,而,PZ1.645 =0.05,所以, z0.05 =1.645.,说明:,1) 除标准正态分布外, 分布、t分布、F分布的上 分位点都有表可查.,2)对于 分布,当n充分大时(n45),,其中Z是标准正态分布的上分位点,3)对于 t 分布,a)由其对称性,有:,b) 当n充分大时(n45),,4)对于F分布,有:,例2. 查表求下列值:,解:,,,例3.设总体X和Y相互独立,同服从,分布,而 X1,X2,, X9 和 Y1,Y2,, Y9,的分布.,分别是来自X和Y的简单随
11、机样本,求统计量,解:,X1,X2,,X15是来自X的简单随机样本,求,解:,试确定常数 c ,使,解:,故,因此,当总体为正态分布时,教材上给出了几个重要的抽样分布定理.这里我们不加证明地叙述.,三、抽样分布定理,(1)样本均值,(2)样本均值 与样本方差 相互独立。,(3)随机变量,定理 2 设X1,X2,Xn是取自正态总体,则有,定理 3 (两个总体样本均值差的分布),且X与Y独立,分别是这两个样本的样本方差,则有,定理 4 (两个总体样本方差比的分布),且X与Y独立,分别是这两个样本的样本方差,则有,上述4个抽样分布定理很重要,要牢固掌握.,的概率不小于90%,则样本容量至少取多少?,
12、解:设样本容量为 n , 则,令,得,即,所以至少取,n = 20的样本,解: (1),即,故,(2),故,第二章:参数估计,第一节 参数估计的意义和种类,一、参数估计问题,二、未知参数的估计量和估计值,三、参数估计的种类,数理统计的基本问题是根据样本提供的信息,对总体的分布以及分布的某些数字特征作出推断。这个问题中的一类是总体分布的类型为已知,而它的某些参数为未知,根据所得样本对这些参数作出推断,这类问题称为参数估计。如:,一、 参数估计问题,已知显象管的使用寿命服从指数分布,但参数未知,现抽样得样本X1 , X2 , , Xn ,依据某理论(后述)用样本来估计参数.这就是参数估计问题.,二
13、、 未知参数的估计量和估计值,样本X1 , X2 , , Xn ,样本值x1 , x2 , , xn .,设有一个总体X,其分布函数为 F(x,),其中为,未知参数 (也可以是未知向量).现从该总体抽样,得,g(X1,X2,Xn)为的估计量, 将样本值x1 , x2 , , xn,若构造出适当的统计量 g(X1,X2,Xn) 来估计,则称,代入,则称g(x1,x2,xn)为的估计值.,估计未知参数的值,估计未知参数的取值范围,并使此范围包含未知参数真值的概率为给定的值.,三、 参数估计的种类,设这5个数是:,1.65 1.67 1.68 1.78 1.69,若估计为1.68,,这是点估计.,这
14、是区间估计.,若估计在区间(1.57, 1.84)内,,现从该总体选取容量为5的样本,我们的任务是要,例如:我们要估计某队男生的平均身高.,且假定身高服从正态分布,根据选出的样本值(5个数)求出总体均值的估计值.,而全部信息就由这5个数组成 .,一、矩估计法,第二节 点估计的求法,二、极大似然估计法,一. 矩估计法,理论依据:,记总体k阶矩为,样本k阶矩为,(辛钦大数定律及其推论),则样本 k 阶矩 依概率收敛于总体 k 阶矩 .,方法:,出待估参数.,建立含有待估参数的方程, 从而解,样本 X1, X2, Xn的前 k 阶矩记为,步骤:,设总体的分布函数的形式已知,待估参数为,总体的前 k
15、阶矩存在.,(1)求出总体的前 k 阶矩,一般是这 k 个参数的函,函数,记为:,7-12,(3)解此方程组 , 得 k 个统计量:,称为未知参数 1, ,k的矩估计量,这是含未知参数 1,2, ,k 的k个方程构成的方程组,,(2)令,7-12,代入样本值,得 k 个数:,称为未知参数 1, ,k的矩估计值,例1.设总体 X B( m, p), 其中p 未知, X1, X2, Xn为总体的样本, 求p 的矩估计量.,解:,令,7-13,得,总体矩,样本矩,例2.设总体X的概率密度为,解:,X1, , Xn为样本,求参数 的矩估计.,令,得,总体矩,样本矩,例3.设X1,X2,Xn是取自总体X
16、的一个样本,其中0, 求,的矩估计.,解:,令,解得,用样本矩估计 总体矩,由课文本节例1知:,例4.设从某灯泡厂某天生产的灯泡中随机 抽取10只灯泡,测得其寿命为(单位:小时) 1050, 1100, 1080, 1120, 1200,1250, 1040, 1130, 1300, 1200,试用矩法估计该厂这天生产的灯泡的平均寿命及寿命分布的方差.,解:,7-14,二、 极大似然估计法,即:在一次试验中,概率最大的事件最有可能发生.,引例: 有两个外形相同的箱子,各装100个球,一箱中,取得的球是白球.问: 所取的球来自哪一箱?,答: 第一箱.,中有99个白球1个红球,一箱中有1个白球99
17、个红球。,现从两箱中任取一箱, 并从箱中任取一球,结果所,一般说,若事件A发生的概率与参数有关, 取值不同,P(A)也不同。则应记事件A发生的概率为P(A| ).若一次试验,事件A发生了,可认为此时的 值应是在中使P(A| ) 达到最大的那一个。这就是极大似然原理.,(极大似然原理),极大似然估计法的理论依据:,X1,X2,Xn是取自总体X的样本,x1 , x2 , xn是样本值.,则样本的联合分布律为:,似然函数:,1. X是离散型总体,其分布律为:,记,2. X是连续型总体,其概率密度为,为其样本的似然函数.,则称,该样本值出现的可能性大小.,极大似然估计的方法:,对于给定的样本值x1 ,
18、 x2 , ,xn ,选取,使得,7-22,称为未知参数 1, ,k 的极大似然估计值,这样得到的估计值,对应的统计量,称为未知参数1,k 的 极大似然估计量,(1) 由总体分布和所给样本,求得似然函数,步骤:,同时取得最大值),(3) 解方程组,7-12,(4) 得未知参数1, ,k的极大似然估计值,及其对应的极大似然估计量,7-12,若待估参数只有一个,则似然函数是一元函数L(),此时,只须将上述步骤中求偏导改为求导即可。,说明:,布,求参数的极大似然估计量,解:,的样本,样本观察值为,由X 服从泊松分布,得X的分布律为,似然函数为,两边取对数,得,=0,得,对求导,并令其为0,,所以参数
19、的极大似然估计量为:,,其中 0,总体X 的样本值,求参数的极大似然估计值.,例6. 设总体X的概率密度为,解:,两边取对数,得,对求导,并令其为0,,得,这就是的极大似然估计值.,解:,两边取对数,得,对求导,并令其为0,,=0,所以的极大似然估计值为,1.可证明极大似然估计具有下述性质:,设的函数g=g()是 上的实值函数,且有唯一反函数 . 如果 是的极大似然估计,则g( )也是g( )的极大似然估计.,关于极大似然估计的两点说明:,此性质称为极大似然估计的不变性,例8. 设X1 X2 , ,Xn为取自参数为的指数分布总体的样本,a0为一给定实数。求p=PXa的极大似然估计,解:,概率密
20、度和分布函数分别为,由总体X服从参数为的指数分布知, X 的,两边取对数,得,对求导,并令其为0,,得的极大似然估计值为,因为,所以,p=PXa的极大似然估计值为,2、当似然函数不是可微函数时,须用极大似然原理来求待估参数的极大似然估计.,例9. 设 X U (a,b), x1, x2, xn 是 X 的一个样本值, 求 a , b 的极大似然估计值与极大似然估计量.,解:,由X U (a,b)知,X 的密度函数为,似然函数为,似然函数只有当 a xi b, i = 1,2, n 时才能获得最大值, 且 a 越大, b 越小, L(a,b) 越大.,令,xmin = min x1, x2, x
21、n xmax = max x1, x2, xn,取,都有,故,是 a , b 的极大似然估计值.,分别是 a , b 的极大似然估计量.,,其中,例10. 设总体X的概率密度为,解:,令,得的矩估计值:,(1)矩估计,两边取对数,得,(2)极大似然估计,得的极大似然估计值:,对求导,并令其为0,,通过例10可见,对同一个待估参数,用不同的方法进行点估计,可能得到不同的估计量.这样就有必要判断哪一个估计量更好,这就是下一节要讲的内容:,评价估计量优良性的标准,一、无偏性,二、有效性,三、一致性,第三节 估计量的评选标准,一、无偏性,随机变量,每次抽样后得到的的估计值不一定与,提出了无偏性的衡量标
22、准。,定义:,是 的无偏估计量.,总体X服从什么分布,样本的 k 阶矩,是总体X的 一个样本,试证明:不论,证明:,由于X1,X2,,Xn和总体X同分布,因而,的无偏估计,例2.设总体X的期望与方差存在,X 的样本为,(1) 不是 D( X )的无偏估量;,(2) 是 D( X )的无偏估计量.,证明:,先证明,所以,因而,所以 不是 D( X )的无偏估计量;,所以 是 D( X )的无偏估计量.,是的无偏估计,并对于任一值,也是的无偏估计.,证明:,由上例可知:,又,则,由上例我们可知,一个未知参数有时会有多个无偏估计,这就又产生了一个问题:哪一个无偏估计量更优呢?,设 和 都是的无偏估计
23、量,即两个估计量,小的那一个,这就有了有效性的衡量标准.,都是总体参数 的无偏估计量, 且,则称 比 更有效.,设,二、有效性,定义,(2)试判断g1和g2哪一个更有效?,例4.已知总体的数学期望 和方差 都存在, X1,X2,X3是总体的样本.设,(1)证明g1和g2都是 的无偏估计,解:,(1),所以,g1 和g2 都是 的无偏估计,(2),因为,所以g1较g2更有效.,(2)求常数 k1和 k2,使得它在所有形如 的无偏估计量中方差最小.,(1)常数k1和k2为何值时, 也是的无偏估计量.,例5.设 和 是参数的两个相互独立的无偏估计量,且 的方差为 的方差的两倍.,解:,由题意知:,(
24、1),令,得,(2),罗克拉美(Rao Cramer)不等式,其中 p ( x , ) 是 总体 X 的分布律或概率密度,称,计量, 此时称 为最有效的估计量, 简称有效估计量.,为方差的下界.,当 时, 称 为 的达到方差下界的无偏估,证明: 因为总体X是(0-1)分布,即:,而,且,又,参数 的估计量是样本的函数,与样本容量n 有关,我们当然希望,样本容量n 越大,估计量与参数 的真值的偏差越小.这就有了一致性的衡量标准.,三、一致性,设 是总体参数 的估计量.,定义,即对于任意正数,有,一致性是对一个估计量的基本要求,若估计量不具有一致性,那么不论将样本容量 n 取得多么大,都不能将估计
25、得足够准确,这样的估计量是不可取的,证明:,由总体X服从参数为 的指数分布可知:,而,故 是 的有效无偏估计量.,又由辛钦大数定律可知:,所以 是 的无偏、有效、一致估计量.,关于一致性的两个常用结论,1. 样本 k 阶矩是总体 k 阶矩的一致估计量.,一般,矩估计法得到的估计量为一致估计量.,我们已讲了参数的点估计以及评价估计量优良性的标准,参数的点估计是用一个确定的值去估计未知的参数. 但是,估计值与参数真值的误差有多大?估计值的可靠性有多大?这些问题在点估计中是无法回答的。这就需要引入区间估计. 也就是下一节要讲的内容 .,第三章:假设检验,一、假设检验问题的提出,二、显著性检验的推理方
26、法和基本步骤,三、两类错误,第一节 假设检验的基本概念,假设检验是统计推断中另一类重要内容。它是在总体分布未知或虽知其分布类型但含有未知参数的时候,提出有关总体分布或分布中某些未知参数的假设。然后根据样本所提供的信息,推断假设是否合理,并作出接受或拒绝所提出假设的决定。,为了具体了解假设检验解决哪些类型的问题,下面看几个例子:,一、假设检验问题的提出,产记录中随机地抽取 n=25 的样本,算得平均含硅,例1. 某炼铁厂生产的生铁含硅量X服从正态分布,N(0.005,0.032)。现改变原料,并从改变原料后的生,后生铁含硅量的均值有无显著变化?,量 ,均方差没有改变,问改变原料,此实例的问题是:
27、根据抽样的结果推断假设“ ”是否为真。,此实例的问题是:根据抽样的结果来推断假设“总体服从泊松分布”是否为真。,实例2.某电话交换台在一分钟内得到的呼唤次数,统计的记录如下:,试检验电话呼唤次数 X 是否服从泊松分布?,总体分布已知,对未知参数提出的假设进行检验.,总体分布未知,对总体分布形式或类型的假设进行检验.,参数假设检验:,非参数假设检验:,假设检验的种类,在假设检验问题中,把要检验的假设称为原假设(零假设或基本假设),记为H0,把原假设的对立面称为备择假设或对立假设,记为H1 。原假设 H0和备择假设 H1两者中必有且仅有一个为真。,二、显著性检验的推理方法和基本步骤,实例.某厂生产
28、的螺钉,按标准,平均强度应为68mm, 实际生产的强度X 服从N(,3.62 ),现从整批螺钉中取容量为 n=36的样本,其均值为 ,问这批螺钉是否符合要求?,若=68,则认为这批螺钉符合要求,否则认为不符合要求.为此提出如下假设:,原假设,备择假设,若原假设H0正确, 则,因而,应是小概率事件.,应较集中在零的周围.即,取较大值,标准化后,,偏离68不应该太远,乎不发生的.,根据小概率原理,小概率事件在一次试验中是几,那么,概率小到什么程度才能算作“小概率事件”呢?,此小概率记为,一般取为0.1,0.05,0.01等.,为此,可以确定一个常数c 使得,然后,计算,若,即一次试验小概率事件就发
29、生了,可以认为,原假设不合理,拒绝原假设H0而接受备择假设H1.否,则,接受原假设H0而拒绝备择假设H1.此时,称区间,为的H0的拒绝域.,现取 ,原假设为真时,因为小概率事件没发生,无理由认为原假设不合理,,所以,接受原假设H0,认为这批螺钉是符合要求的.,所以,(称U为检验统计量),由此例可见:,1.假设检验的理论依据:,实际推断原理(小概率原理),小概率事件在一次试验中几乎是不可能发生的,2. 假设检验是概率意义下的反证法.即:,首先假定原假设H0成立,依照事先给定的概率(称为显著性水平),构造一个小概率事件。然后根据抽样的结果,观察此小概率事件是否发生。若此小概率事件发生了,则认为原假
30、设是不真的,从而作出拒绝H0的判断。否则,就接受H0。,由此可见:,拒绝原假设是有说服力的, 而接受原假设是没有说服力的.,3.不否定H0并不是肯定H0一定对,而只是说差异还不够显著,还没有达到足以否定H0的程度.,因此应把希望否定的假设作为原假设.,假设检验的一般步骤:,(1) 根据实际问题的要求,充分考虑和利用已知的背景知识,提出原假设H0及备择假设H1 ;,(2) 给定显著性水平,选取检验统计量,并确定其分布;,(3) 由P拒绝H0 | H0为真=确定H0的拒绝域的形式;,(4) 由样本值求得检验统计量的观察值,若观察值在拒绝域内,则拒绝原假设H0 ,否则接受原假设H0 .,第一类错误(
31、弃真错误):,第二类错误(取伪错误):,三、两类错误,原假设H0为真,但拒绝了原假设H0 .,原假设H0不真,但接受了原假设H0 .,P拒绝H0|H0为真=,P接受H0|H0不真= .,显然,显著性水平为犯第一类错误的概率.,记,处理原则:,任何检验方法都不能完全排除犯错误的可能性.理想的检验方法应使犯两类错误的概率都很小,但在样本容量固定时,一类错误概率的减少必会导致另一类错误概率的增加.,控制犯第一类错误的概率,然后,若有必要,通过增大样本容量的方法来减少犯第二类错误的概率 .,关于原假设与备择假设的选取,H0与H1地位应平等,但在控制犯第一类错误的概率 的原则下,使得采取拒绝H0 的决策
32、变得较慎重,即H0 得到特别的保护.因而通常把有把握的、有经验的结论作为原假设,或者尽可能使后果严重的错误成为第一类错误.,注:,一、单一正态总体均值的假设检验,二、单一正态总体方差2的假设检验,三、两个正态总体均值的假设检验,四、两个正态总体方差的假设检验,第二节 正态总体的假设检验,一、单一正态总体均值的假设检验,1已知 时,总体均值 的假设检验,(1) 的双边检验:,设总体XN (, 2). X1 , X2 , , Xn是取自X的样本,,样本均值 样本方差S2,原假设,备择假设,取检验统计量:,则拒绝域为:,N(0, 1),当H0为真时,,此时,因为 是0的无偏估计量, 不应太大.,P拒
33、绝H0|H0为真,所以,即:,由此知,拒绝域为:,推导:,(2) 的单边检验:,原假设,备择假设,检验统计量:,拒绝域为:,统计中把拒绝域在某个区间的两侧的检验称为双边检验(这里是区间 的两侧),(a),(证明略),原假设,备择假设,检验统计量:,拒绝域为:,统计中把拒绝域在某个区间的某一侧的检验称为单边检验(这里是区间 的某一侧),(b),这里由于使用的是服从正态分布的 U 统计量来进行检验,也称为U 检验法(或正态检验法)。, 0, 0, 0, 0, 0, 0,U 检验法 (02已知),双边 检验,单边 检验, 0, 0, 0, 0, 0, 0,T 检验法 ( 2 未知),双边检验,单边
34、检验,2 未知时,总体均值 的假设检验,例1. 设某次考试的考生的成绩服从正态分布,从中随机地抽取36位考生的成绩,算得平均成绩为66.5分,标准差为15分,问在显著性水平0.05下,是否可以认为在这次考试中全体考生的平均成绩为70分?,解:,原假设,备择假设,检验统计量:,拒绝域:,n=36, =0.05,,所以接受H0,,在显著性水平0.05下,可以认为在这次考试中全体考生的平均成绩为70分。,因为,解:,原假设,备择假设,由2 =0.022知,检验统计量为,拒绝域:,例2.一台机床加工轴的椭圆度 X 服从正态分布N(0.095,0.022)(单位:mm)。机床经调整后随机取20根测量其椭
35、圆度,算得 mm 。已知总体方差不变,问调整后机床加工轴的椭圆度的均值有无显著降低?,n=20,=0.05,,所以接受H0,,在显著性水平0.05下,认为调整后机床加工轴的椭圆度的均值无显著降低.,因为,例3.某种电子元件,要求使用寿命不得低于1000 小时。现从一批这种元件中随机抽取25 件,测其寿命,算得其平均寿命950小时,设该元件的寿命XN(,1002),在显著性水平0.05下,确定这批元件是否合格?,解:,原假设,备择假设,由2 =1002知,检验统计量为,拒绝域:,n=25 , =0.05,,所以拒绝H0,,在显著性水平0.05下,认为这批元件不合格.,因为,2 检验法,双边 检验
36、,单边 检验,1已知 时,总体方差2的假设检验,二、单一正态总体方差2的假设检验,当H0为真时,,P拒绝H0|H0为真,所以拒绝域为:,推导(双边检验情形) :,此时,因为 是2的无偏估计量,拒绝域应表现为 偏小或偏大,,2 检验法,双边 检验,单边 检验,2. 未知时,总体方差2的假设检验,例4. 在生产线上随机地取10只电阻测得电阻值(单位:欧姆)如下:114.2,91.9,107.5,89.1,87.2,87.6,95.8 ,98.4,94.6,85.4 设电阻的电阻值总体服从正态分布,问在显著性水平=0.1下方差与60是否有显著差异?,解:,原假设,备择假设,检验统计量:,拒绝域:,n
37、=10 ,=0.1,,所以接受H0,,因为,即在显著性水平=0.1下,认为方差与60无显著差异.,例5. 某种导线,要求其电阻的标准差不得超过0.005欧姆,今在生产的一批导线中取样本9根,测得s=0.007欧姆.设总体服从正态分布,参数均未知,问在显著性水平=0.05下,能否认为这批导线的标准差显著地偏大?,解:,原假设,备择假设,检验统计量:,拒绝域:,n=9 ,=0.05,,所以拒绝H0,,因为,即在显著性水平=0.05下,认为这批导线的标准差显著地偏大.,三、两个正态总体均值的假设检验,为取自总体 N ( 1 12 ) 的样本,为取自总体 N ( 2 22 ) 的样本,分别表示两样本的
38、样本均值与样本方差,且两总体相互独立。, 1 2,1 2, 1 2,1 2,1 2,1 2,U 检验法,双边 检验,单边 检验,1已知 时,总体均值的假设检验, 1 2,1 2, 1 2,1 2,1 2,1 2,双边 检验,单边 检验,2 未知,但 时,总体均值的假设检验,T 检验法,例6.测得两批小学生的身高(单位:厘米)为: 第一批:140,138,143,142,144,137,141 第二批:135,140,142,136,138,140. 设这两个相互独立的总体都服从正态分布,且方差相同,试判断这两批学生的平均身高是否相等(=0.10 )。,解:,原假设,检验统计量:,拒绝域:,备择
39、假设,=0.10,所以接受H0,,因为,认为这两批学生的平均身高是相等的.,例7.某校从经常参加体育锻炼的男生中随机地选出50名,测得平均身高174.34cm,从不经常参加体育锻炼的男生中随机地选出50名,测得平均身高172.42cm,统计资料表明两种男生的身高都服从正态分布,其标准差分别为5.35cm和6.11cm,问该校经常参加体育锻炼的男生是否比不经常参加体育锻炼的男生平均身高要高些? (=0.05 ),解:,原假设,检验统计量:,拒绝域:,备择假设,所以拒绝H0,,因为,认为该校经常参加体育锻炼的男生比不经常参加体育锻炼的男生平均身高要高些.,F 检验法,双边 检验,单边 检验,1已知
40、 时,总体方差的假设检验,四、两个正态总体方差的假设检验,F 检验法,双边 检验,单边 检验,2 未知时,总体方差的假设检验,例8.设两家银行储户的年存款余额均服从正态分布,经市场调查,分别抽取容量为21和16的样本,得样本均值分别为650元和800元,样本方差分别为802和702,能否认为第二家银行储户的平均年存款余额显著高于第一家银行储户的平均年存款余额。 ( =0.10 ),解:,检验统计量:,拒绝域:,(1)先检验两家银行储户的年存款余额的方差有无显著性差异。,原假设,备择假设,=0.10,所以接受H0,,因为,认为两家银行储户的年存款余额的方差无显著性差异.,原假设,检验统计量:,拒
41、绝域:,备择假设,(2)再检验第二家银行储户的平均年存款余额是否显著高于第一家银行储户的平均年存款余额。,=0.10,所以拒绝H0,,因为,认为第二家银行储户的平均年存款余额显著高于第一家银行储户的平均年存款余额,第三节 (0-1) 总体参数 p 的大样本检验,在实际问题中,经常会遇到要对(0-1)总体中参数 p 进行检验的问题。这时,一般是抽取大容量(n30)的样本,利用中心极限定理,对参数 p 进行假设检验.,下面先用此方法对双边检验进行假设检验,然后推广到单边检验。,已知总体X 服从(0-1)分布,其分布律为,现抽取容量为n(n30)的样本X1 , X2 , , Xn,,样本均值为,则,
42、对参数 p 的双边检验:,极限定理可知:,当原假设,为真时,由独立同分布中心,原假设,备择假设,得:,因为 是 p 的达到方差界的无偏估计,所以U的,为 |U| 偏大。即拒绝域应形如:,设显著性水平为,由,值应较集中在零附近,而 的拒绝域应体现,p p0,p p0,p p0,p p0,p p0,p p0,U 检验法,双边 检验,单边 检验,例1. 某药厂在广告上声称该药品对某种疾病的治愈率为80%,一家医院对这种药品临床使用120例,治愈85人,问该药品的广告是否真实(=0.02)?,解:,由于n=120为大样本,设随机变量X为,则X(0-1)分布.,原假设,备择假设,检验统计量为,拒绝域:,
43、=0.02,,所以拒绝H0,,因为,认为该药品的广告不真实.,例2. 若在猜硬币正反面的游戏中,某人在100次试猜中共猜中 60次,是否可以认为此人有诀窍?(=0.05),解:,由于n=100为大样本,设随机变量X为,则X(0-1)分布.,原假设,备择假设,检验统计量为,拒绝域:,=0.05,,若有诀窍,则 猜中的概率 p 应大于1/2.,所以拒绝H0,,因为,可以认为此人猜硬币有某种诀窍。,第四节 分布函数的拟合优度检验,前面几节中讨论了总体分布形式已知时关于总体参数的假设检验。但在许多实际问题中并不能预先知道总体分布的形式。这时,就需要根据样本提供的信息,对总体的分布作出假设,并对此假设进
44、行检验。本节我们将介绍由英国统计学家卡尔皮尔逊提出的 拟合优度检验法。,拟合优度检验法的基本原理和步骤:,1. 提出原假设,H0 :总体 X 的分布函数为F (x),备择假设H1 :,总体 X 的分布函不是F (x),(1)备择假设可以不必写出.,(2)若X是离散型总体,原假设相当于:,H0 :总体 X 的分布律为:PX=xi= pi ,i=1,2, ,若X是连续型总体,原假设相当于:,H0 :总体 X 的概率密度为f (x).,说明:,(3) 若在原假设 H0下,总体分布的形式已知,但有r 个参数未知,这时需要用极大似然估计法先估计这 r 个参数.,2. 将 x 轴分成K个互不重迭的小区间:
45、,3.计算样本的n个观察值落入以上每个区间的个数,记为fi ( i=1,2, ,K),称其为实际频数. 所有实际频数之和 f1+ f2+ + fk 等于样本容量n.,4.在原假设H0为真时,计算总体落入每个区间的概率Pi=F(bi)- F(bi-1)( i=1,2, ,K),于是npi就是落入第i个区间的样本值的理论频数.,反映了实际频数与理论频数的差异.,当原假设H0为真,样本容量又充分大时,两者,并证明了如下定理:,的差异应不会太大,皮尔逊由此引进统计量:,定理(皮尔逊)若 n 充分大,H0为真时,不论 H0中的分布属于什么类型,统计量,总是近似服从自由度为K-r-1的 分布,即,其中r是
46、分布中被估计的参数的个数.,由此得,5.检验统计量:,拒绝域:,要适当合并区间以满足这个要求。,拟合优度检验法是在n充分大的条件下得到,的,所以在使用时必须注意 n要足够大及 npi不能太小,,根据实际经验,要求 n 50,理论频数npi 4 ,否则,注:,例1.某个城市在某一时期内共发生交通事故600次,按不同颜色小汽车分类如下,如果交通事故的发生与汽车的颜色无关,则每种颜色的小汽车发生交通事故的可能性是一样的.,问:交通事故是否与汽车的颜色有关?,分析:,解:,原假设,检验统计量:,拒绝域:,列表计算,红 棕 黄 白 灰 蓝,n=600,-25,25,30,-20,35,15,75 125 70 80 135 115,1/6 1/6 1/6 1/6 1/6 1/6,100 100 100 100 100 100,6.25,6.25,9,4,12.25,2.25,40,所以拒绝H0,认为交通事故与汽车的颜色有关.,因为,例2.某电话交换台,在100分钟内记录了每分钟被呼唤的次数X,设f i为出现该 X值的频数,结果如下:,问总体X(电话交换台每分钟呼唤次数)服从泊松分布吗?,