收藏 分享(赏)

概率与统计(下)-浙江工业大学.ppt

上传人:dreamzhangning 文档编号:3330641 上传时间:2018-10-14 格式:PPT 页数:285 大小:9.67MB
下载 相关 举报
概率与统计(下)-浙江工业大学.ppt_第1页
第1页 / 共285页
概率与统计(下)-浙江工业大学.ppt_第2页
第2页 / 共285页
概率与统计(下)-浙江工业大学.ppt_第3页
第3页 / 共285页
概率与统计(下)-浙江工业大学.ppt_第4页
第4页 / 共285页
概率与统计(下)-浙江工业大学.ppt_第5页
第5页 / 共285页
点击查看更多>>
资源描述

1、第六章第一节 引言,本章转入课程的第二部分,数理统计,数理统计的特点是应用面广,分支较多. 社会的发展不断向统计提出新的问题.,计算机的诞生与发展,为数据处理提供了强有力的技术支持,数理统计与计算机的结合是必然的发展趋势.,学习统计无须把过多时间化在计算上,可以更有效地把时间用在基本概念、方法原理的正确理解上. 国内外著名的统计软件包: SAS,SPSS,MATLAB, STAT等,都可以让你快速、简便地进行数据处理和分析.,从历史的典籍中,人们不难发现许多关于钱粮、户口、地震、水灾等等的记载,说明人们很早就开始了统计的工作 . 但是当时的统计,只是对有关事实的简单记录和整理,而没有在一定理论

2、的指导下,作出超越这些数据范围之外的推断.,到了十九世纪末二十世纪初,随着近代数学和概率论的发展,才真正诞生了数理统计学这门学科.,数理统计学,数理统计学是一门应用性很强的学科. 它是研究怎样以有效的方式收集、 整理和分析带有随机性的数据,以便对所考察的问题作出推断和预测,直至为采取一定的决策和行动提供依据和建议.,数理统计不同于一般的资料统计,它更侧重于应用随机现象本身的规律性进行资料的收集、整理和分析.,由于大量随机现象必然呈现出它的规律性,因而从理论上讲,只要对随机现象进行足够多次观察,被研究的随机现象的规律性一定能清楚地呈现出来.,数理统计的任务就是研究怎样有效地收集、整理、分析所获得

3、的有限的资料,对所研究的问题, 尽可能地作出精确而可靠的结论.,现实世界中存在着形形色色的数据,分析这些数据需要多种多样的方法.因此,数理统计中的方法和支持这些方法的相应理论是相当丰富的.概括起来可以归纳成两大类:参数估计根据数据,用一些方法对分布的未知参数进行估计.假设检验根据数据,用一些方法对分布的未知参数进行检验.它们构成了统计推断的两种基本形式.这两种推断渗透到了数理统计的每个分支.,第六章第二节总体与样本,在统计学中,将我们研究的问题所涉及的对象的全体称为总体,而把总体中的每个成员称为个体.例如:我们想要研究一家工厂的某种产品的废品率.这种产品的全体就是我们的总体,而每件产品则是个体

4、.,一、总体,实际上,我们真正关心的并不是总体或个体的本身,而是其某项数量指标.比如某家工厂的一种产品的使用寿命这样一项数量指标. 因此,我们应该把总体理解为那些研究对象上的某项数量指标的全体.为了评价一家工厂的某种产品的质量的好坏,通常的做法是从它的全部产品中随机地抽取一些样品,在统计学上称为样本.同上道理,我们实际是把样本理解为样品上的数量指标.因此,今后当我们说到总体和样本时,既指研究对象又指它们的某项数量指标.,说明,研究某地区N个农户的年收人.在这里,总体既指这N个农户,又指我们关心的数量指标他们的年收入的N个数字.如果我们从这N个农户中随机地抽出n个农户作为调查对象,那么,这n个农

5、户以及我们关心的数量指标他们的年收入这n个数字就是样本.,在上面的例子中,总体是很直观的,是看得见摸得着的.但是客观情况并不总是这样.,例1,注意,用一把尺子去量一个物体的长度.假定n次测量值为X1,X2 , ,Xn 显然,在这个问题中,我们把测量值 X1,X2 , ,Xn看成了样本,但是,总体是什么呢?,例2,事实上,这里没有一个现实存在的个体的集合可以作为我们的总体.可是,我们可以这样考虑,既然n个测量值 X1,X2 , ,Xn是样本,那么总体就应该理解为一切所有可能的测量值的全体.,分析:,这种类型的总体的例子不胜枚举.例如:为研究某种安眠药的药效,让n个病人同时服用此药,记录下他们各自

6、服药后的睡眠时间比未服药时延长的小时数.X1,X2 , ,Xn这些数字就是样本.什么是总体呢?设想让某个地区或某个国家,甚至全世界所有患失眠症的病人都服用此药,他们所增加的睡眠时间的小时数的全体,就是该问题中的总体.,对一个总体,如果我们用X表示它的数量指标,那么X的值对不同的个体取不同的值.因此,如果我们随机地抽取个体,则X的值也就随着抽取的个体的不同而不同.所以X是一个随机变量!既然总体是随机变量X,自然就有其概率分布.我们把X的分布称为总体的分布.总体的特性是由总体分布来刻画的.因此,我们常把总体和总体分布视为同义语.,二、总体的分布,例l中,若农户年收入以万元计, 假定N户中收入X为以

7、下几种取值:0.5,0.8,l,1.2和1.5.取这些值的农户个数分别为:n1,n2, n3,n4,n5,(这里n1+n2+n3+n4+n5=N).则总体X的分布为离散型分布,其分布律为:,例3(例l续),例2中,假定物体的真正长度为 (未知).一般说来测量值X,也就是我们的总体,取附近值的概率要大一些,而离愈远的值被取到的概率就小一些.如果测量过程没有系统性误差,那么X取大于和小于的概率也会相等.在这样的情况下,人们往往认为X服从均值为的正态分布.假定其方差为2,则2反映了测量的精度.于是,总体X的分布为N(,2).记为XN(,2).,例4(例2续),这里有一个问题,即物体长度的测量值总是在

8、它的真正长度的附近,它根本不可能取到负值.而正态变量取值在(-,+)上,那么怎么可以认为测量值X服从正态分布呢?回答这个问题,有两方面的理由.,(1) 在前面讲过,对于XN(,2). P-3X+3=0.9974.即X落在区间(-3,+3)之外的概率不超过0.003,即这个概率是非常小的.显然X落在(-4,+4)之外的概率也就更小了.,说明,比如,假定物体长度=10厘米,测量误差约为0.01厘米,则2=0.012.这时(-3,+3)=(9.9997,10.0003).于是测量值落在这个区间之外的概率最多只有0.003,可以忽略不计.可见,用正态分布N(10,0.012)去描述测量值X是适当的.完

9、全可以认为它根本不可能取到负值. (2) 另外,正态分布取值范围是无限区间(-,+),这样还可以解决规定测量值取值范围上的困难.,如若不然,我们需要用一个定义在有限区间(a,b)取值的随机变量来描述测量值X.那么a和b到底应取什么值,测量者事先很难确定.再退一步,即使我们能够确定出a和b,却仍很难找出一个定义在(a,b)上的非均匀分布能够用来恰当地描述测量值.与其这样,还不如我们干脆就把取值区间放大到(-,+),并采用正态分布去描述测量值.这样既简化了问题又不致引起较大的误差,思考一下看:,如果总体所包含的个体数量是有限的,则称该总体为有限总体.有限总体的分布显然是离散型的,如例3.如果总体所

10、包含的个体数量是无限的,则称该总体为无限总体.无限总体的分布可以是连续型的,如例4,也可以是离散型的.,三、有限总体与无限总体,在数理统计中,研究有限总体比较困难.因为它的分布是离散型的,且分布律与总体所含个体数量有关系.,说明,所以,通常在总体所含个体数量比较大时,我们就把它近似地视为无限总体,并且用连续型分布去逼近总体的分布,这样便于做进一步的统计分析.,例,研究某大城市年龄在1岁到10岁之间儿童的身高.显然,不管这个城市规模有多大,在这个年龄段的儿童数量总是有限的.因此,这个总体X只能是有限总体.总体分布也只能是离散型分布.,然而,为了便于处理问题,我们可以把它近似地看成一个无限总体,并

11、且通常用正态分布来逼近这个总体的分布.当城市比较大,儿童数量比较多时,这种逼近所带来的误差,从应用观点来看,可以忽略不计.,四、样本的二重性,(1) 假设X1,X2 , ,Xn是从总体X中抽取的样本,在一次具体的观测或试验中,它们是一批测量值,是一些已得到的数.这就是说,样本具有数的属性,(2) 另一方面,由于在具体的试验或观测中,受到各种随机因素的影响,在不同的观测中样本取值可能不同.因此,当脱离开特定的具体试验或观测时,我们并不知道样本X1,X2 , ,Xn的具体取值到底是多少,因此,可以把它们看成随机变量.样本就具有随机变量的属性.,样本X1,X2 , ,Xn既可被看成数又可被看成随机变

12、量,这就是所谓 样本的二重性.,需要特别强调的是,以后凡是我们离开具体的一次观测或试验来谈及样本X1,X2 , ,Xn 时,它们总是被看成随机变量.,注意,在前面测量物体长度的例子中,如果我们是在完全相同的条件下,独立地测量了n次,把这n次测量结果,即样本记为 X1,X2 , ,Xn .那么我们完全有理由认为,这些样本相互独立且有相同分布;其分布与总体分布N(,2)相同,例 (例2续),五、随机样本,推广到一般情况,如果我们在相同条件下对总体X进行n次重复的独立观测,那么就可以认为所获得的样本X1,X2 , ,Xn是n个独立的且与总体X同样分布的随机变量.,在统计文献中,通常称: 这样的样本随

13、机样本,简称为样本. n 样本大小或样本容量或样本数.X1,X2 , ,Xn 一组样本或一个样本(这是把X1,X2 , ,Xn看成一个整体),或 n个样本.,名词,既然样本 X1,X2 , ,Xn 被看作随机变量,自然就需要研究它们的分布,六、样本的分布,假设总体X具有概率密度f(x),则由于样本 X1,X2 , ,Xn 是相互独立且与X同分布,于是它们的联合概率密度为,假设某大城市居民的收入服从正态分布 N(,2),其概率密度函数为:,例5,现从中随机抽取一组样本 X1,X2 , ,Xn.因为它们相互独立,且都与总体同分布,即: Xi N(,2),i1,2,n. 于是样本 X1,X2 , ,

14、Xn 的联合概率密度为,第六章第三节 统计量,由样本值去推断总体情况,需要对样本值进行“加工”,这就要构造一些样本的函数,它把样本中所含的(某一方面)的信息集中起来.,一、 统计量,这种不含任何未知参数的样本的函数称为统计量. 它是完全由样本决定的量.,二、几个常见统计量,样本均值,样本方差,它反映了总体均值 的信息,它反映了总体方差 的信息,样本k阶原点矩,样本k阶中心矩,k=1,2,它反映了总体k 阶矩 的信息,它反映了总体k 阶 中心矩的信息,三、抽样分布,统计量既然是依赖于样本的,而后者又是随机变量,故统计量也是随机变量,因而就有一定的分布,这个分布叫做统计量的“抽样分布” .,抽样分

15、布就是通常的随机变量函数的分布. 只是强调这一分布是由一个统计量所产生的. 研究统计量的性质和评价一个统计推断的优良性,完全取决于其抽样分布的性质.,抽样分布,精确抽样分布,渐近分布,(小样本问题中使用),(大样本问题中使用),设 X1,X2 , ,Xn是来自均值为 ,方差为2的总体的一组样本.则当n充分大时,近似地有,定理, X1,X2 , ,Xn是来自均值为 ,方差为2的总体的一组样本. X1,X2 , ,Xn是独立同分布的, 且E(X)=,Var(X)=2, i=1,2,n.根据中心极限定理(定理5.2.1),我们有,对充分大的n,近似地有,证明:,样本均值的分布函数的近似地计算,定理

16、的应用,样本均值与的偏差的研究的近似地计算,我们看到,当2给定,那么对于固定的c,当样本大小 n增大时,上面的概率也随之增加.n趋近于无穷时则趋近于1.,公司用机器向瓶子里灌装液体洗净剂,规定每瓶装毫升.但实际灌装量总有一定的波动.假定灌装量的方差2=1,如果每箱装25瓶这样的洗净剂.求:这25瓶洗净剂的平均灌装量与标定值相差不超过0.3毫升的概率是多少?又:如果每箱装50瓶时呢?,记一箱中25瓶洗净剂灌装量为X1,X2,X25,它们是来自均值为, 方差为1的总体中的样本. 根据定理6.3.1,近似有,解:,例3,当n=50,同样算出,第六章第四节 正态总体,统计三大分布,记为,定义: 设 相

17、互独立, 都服从正态 分布N(0,1), 则称随机变量: 所服从的分布为自由度为 n 的 分布.,分布是由正态分布派生出来的一种分布.,分布的密度函数为,请看演示,分布,由 分布的定义,不难得到:,应用中心极限定理可得,若,的分布近似正态分布N(0,1).,则可以求得, E(X)=n, Var(X)=2n,若,n2分布的密度函数的图形如右图.,n2分布的上分位点可以查附表4(P234).,n2分布的上分位点图形如右图.,2分布的分位点,对于(0,1)给定,称满足 条件:,的点n2()为n2分布的上分位点.,T的密度函数为:,所服从的分布为自由度为 n的 t 分布.,二、t 分布,记为T .,具

18、有自由度为n的t分布的随机变量T的数学期望和方差为:E(T)=0; Var(T)=n / (n-2) , 对n 2,当n充分大时,其图形类似于标准正态分布密度函数的图形.,t分布的密度函数关于x=0对称,且,不难看到,当n充分大时,t 分布近似N (0,1)分布. 但对于较小的n,t分布与N (0,1)分布相差很大.,请看演示,t 分布,Ttn,对于(0,1)给定,称满足条件:,t分布的分位点,的点tn()为t分布的上分位点.,t分布的上分位点图形如右图.,t分布的上分位点可以查附表3(P232).,三、F分布,即它的数学期望并不依赖于第一自由度n1.,X的数学期望为:,若n22,若X , X

19、的概率密度为,请看演示,F分布,FFm,n,对于(0,1)给定,称满足条件:,F分布的分位点,的点Fm,n()为F分布的上分位点.,F分布的上分位点图形如右图.,F分布的上分位点可以查附表5(P237).,当总体为正态分布时,教材上给出了几个重要的抽样分布定理. 这里我们不加证明地叙述. 除定理2外,其它几个定理的证明都可以在教材上找到.,四、几个重要的抽样分布定理,定理 1 (样本均值的分布),n取不同值时样本均值 的分布,定理 2 (样本方差的分布),n取不同值时 的分布,定理 3,定理 4 (两总体样本均值差的分布),定理 5 (两总体样本方差比的分布),假设某物体的实际重量为,但它是未

20、知的.现在用一架天平去称它,共称了n次,得到X1,X2 , ,Xn.假设每次称量过程彼此独立且没有系统误差,则可以认为这些测量值都服从正态分布 N(,2), 方差2反映了天平及测量过程的总精度.通常我们用样本均值:,根据基本定理,例1,例如=0.1时,若取n=10.则:,下面讨论估计值,即样本均值与真值的偏差.,于是根据第二章讲过:,随着称量次数n的增加,这个偏差界限,还是=0.1时,若取n=100.则:,越来越小.,在设计导弹发射装置时,重要事情之一是研究弹着点偏离目标中心的距离的方差.对于一类导弹发射装置,弹着点偏离目标中心的距离服从正态分布N( , 2),这里2=100米2.现在进行了2

21、5次发射试验,用S2记这25次试验中弹着点偏离目标中心的距离的样本方差.求:S2超过50米2的概率.,例2,根据基本定理,查P234附表4,得到:,解:,本章小结,一、总体,样本,样本的分布,二、 统计量及其分布,1. 几个常见统计量,2. 统计三大分布,样本均值, 样本方差,样本k阶原点矩, 样本k阶中心矩,3. 抽样分布,第 七 章参 数 估 计,总体是由总体分布来刻画的.总体分布类型的判断在实际问题中,我们根据问题本身的专业知识或以往的经验或适当的统计方法,有时可以判断总体分布的类型.总体分布的未知参数的估计总体分布的参数往往是未知的,需要通过样本来估计.通过样本来估计总体的参数,称为参

22、数估计,它是统计推断的一种重要形式.,本章讨论:参数估计的常用方法.估计的优良性准则.若干重要总体的参数估计问题.,例如 (1) 为了研究人们的市场消费行为,我们要先搞清楚人们的收入状况.假设某城市人均年收入XN(,2). 但参数 和 2 的具体值并不知道,需要 通过样本来估计.(2) 假定某城市在单位时间(譬如一 个月)内交通事故发生次数 X P().参数未知,需要从样本来估计.,这类问题称为参数估计.,参数估计问题的一般提法,X1, X2 , , Xn,参数估计,点估计,区间估计,(假定身高服从正态分布 ),设这5个数是:,1.65 1.67 1.68 1.78 1.69,估计 为1.68

23、,,这是点估计.,这是区间估计.,假如我们要估计某队男生的平均身高.,现从该总体选取容量为5的样本,我们的任务是要根据选出的样本(5个数)求出总体均值 的估计. 而全部信息就由这5个数组成 .,一、点估计概念及讨论的问题,例1 已知某地区新生婴儿的体重X,随机抽查100个婴儿,得100个体重数据,9, 7, 6, 6.5, 5, 5.2, ,而全部信息就由这100个数组成.,把样本值代入T(X1, X2, , Xn) 中,得到,的一个点估计值 .,二、寻求估计量的方法,1. 矩估计法,2. 极大似然法,3. 最小二乘法,4. 贝叶斯方法,这里我们主要介绍前面两种方法 .,第 七 章第一节矩 估

24、 计,其基本思想是用样本矩估计总体矩 .,理论依据:,矩是基于一种简单的“替换”思想建立起来的一种估计方法 .,是英国统计学家K.皮尔逊最早提出的 .,大数定律,记总体k阶矩为,样本k阶矩为,用相应的样本矩去估计总体矩的估计方法 就称为矩估计法.,记总体k阶中心矩为,样本k阶中心矩为,设总体X的分布函数中含有k个未知参数,步骤一、 我们把总体X的m阶原点矩E(Xm)记为 am , m=1,2, ,k,am (1,2,k) (m=1,2, ,k),方法,步骤二、 算出m阶样本原点矩:,步骤三、令 am (1,2,k) = Am (m=1,2, ,k)得关于 1,2,k的 方程组,步骤四、解这个方

25、程组,其解记为,它们就可以做为1,2 ,k的估计.这样求出的估计叫做矩估计., X1,X2 , ,Xn是独立同分布的. X1m,X2m, ,Xnm也是独立同分布的. 于是有:E(X1m)=E(X2m)=E(Xnm)= E(Xm)=am . 根据大数定律,样本原点矩Am作为 X1m,X2m, ,Xnm的算术平均值依概率收敛到均值am=E(Xm).即:,原理解释,解:,由矩法,样本矩,总体矩,从中解得,数学期望 是一阶 原点矩,解: 由密度函数知,具有均值为 的指数分布,故 E(X- )=,Var(X- )=,用样本矩估计 总体矩,设总体的均值为,方差为2 ,于是,由此列出方程组:,例3 均值,方

26、差2的矩估计,均值,方差2的矩估计是:,例如 求正态总体 N(,2)两个未知参数和2的矩估计为,总体均匀分布 X U(a,b). 求:两个参数a,b的矩估计,解:,又如,但是,由方程组求解出a,b的矩估计:,矩法的优点是简单易行,并不需要事先知道总体是什么分布 .,缺点是,当总体类型已知时,没有 充分利用分布提供的信息 . 一般场合下, 矩估计量不具有唯一性 .,其主要原因在于建立矩法方程时,选取那些总体矩用相应样本矩代替带有一定的随意性 .,稍事休息,第七章第二节极大似然估计,极大似然法,是在总体类型已知条件下使用的一种参数估计方法 .,它首先是由德国数学家 高斯在1821年提出的 ,Gau

27、ss,Fisher,然而,这个方法常归功于 英国统计学家费歇 .,费歇在1922年重新发现了这一方法,并首先研究了这种方法的一些性质 .,极大似然法的基本思想,先看一个简单例子:,一只野兔从前方窜过 .,是谁打中的呢?,某位同学与一位猎人一起外出打猎 .,如果要你推测,,你会如何想呢?,只听一声枪响,野兔应声倒下 .,你就会想,只发一枪便打中,猎人命中的概率一般大于这位同学命中的概率. 看来这一枪是猎人射中的 .,这个例子所作的推断已经体现了极大似然法的基本思想 .,极大似然估计原理:,当给定样本X1,X2,Xn时,定义似然函数为:,设X1,X2,Xn是取自总体X的一个样本,样本的联合密度(连

28、续型)或联合概率函数(离散型)为 f (X1,X2,Xn; ) .,似然函数:,极大似然估计法就是用使 达到最大值的 去估计 .,称 为 的极大似然估计(MLE).,看作参数 的函数,它可作为 将以多 大可能产生样本值X1,X2,Xn的一种度量 .,(4) 在最大值点的表达式中, 用样本值代入就得参数的极大似然估计值 .,求极大似然估计(MLE)的一般步骤是:,(1) 由总体分布导出样本的联合概率函数(或联合密度);,(2) 把样本联合概率函数(或联合密度)中自变量看成已知常数,而把参数 看作自变量,得到似然函数L( );,(3) 求似然函数L( ) 的最大值点(常常转化为求ln L( )的最

29、大值点) ,即 的MLE;,两点说明:,1、求似然函数L( ) 的最大值点,可以应用微积分中的技巧。由于ln(x)是x的增函数,lnL( )与L( )在 的同一值处达到它的最大值,假定 是一实数,且lnL( ) 是 的一个可微函数。通过求解所谓“似然方程”:,可以得到 的MLE .,若 是向量,上述方程必须用似然方程 组代替 .,2、用上述求导方法求参数的MLE有时行不通,这时要用极大似然原则来求 .,两点说明:,下面举例说明如何求极大似然估计,L(p)= f (X1,X2,Xn; p ),例1 设X1,X2,Xn是取自总体 XB(1, p) 的一个样本,求参数p的极大似然估计.,解:似然函数

30、为:,对数似然函数为:,对p求导并令其为0,,=0,得,即为 p 的MLE .,正态总体 N(,2)两个未知参数和2的极大似然估计.(注:我们把2看作一个参数),解:,例2,似然方程组为,根据第一式,就得到:,代入第二式,就得到:,由上,似然方程组的解唯一.下面验证它是极大值点.,是L(,2)的最大值点. 和2的极大似然估计量是,总体 泊松分布 X P(). 求:参数的极大似然估计.,解:,例3,似然方程为,是logL()的最大值点. 的极大似然估计量是,总体均匀分布 X U(a,b).求:两个参数a,b的极大似然估计,解:,例 4,我们由上看到,L(a,b)作为a和b的二元函数是不连续的.所

31、以我们不能用似然方程组来求极大似然估计,而必须从极大似然估计的定义出发,求L(a,b)的最大值.,为使L(a,b)达到最大,ba应该尽量地小. 但 b 又不能小于maxx1,x2 , ,xn .否则, L(a,b)=0.类似地a不能大过minx1,x2,xn.因此,a和b的极大似然估计为,解:似然函数为,对数似然函数为,例5设X1,X2,Xn是取自总体X的一个样本,求 的极大似然估计.,其中 0,求导并令其为0,=0,从中解得,即为 的MLE .,对数似然函数为,解:似然函数为,i=1,2,n,对数似然函数为,解:似然函数为,i=1,2,n,=0 (2),由(1)得,=0 (1),对 分别求偏

32、导并令其为0,对数似然函数为,是,对,故使 达到最大的 即 的MLE,,于是,取其它值时,,即 为 的MLE .,且是 的增函数,由于,第七章第三节 估计量的优良性准则,从前面两节的讨论中我们看到:有时候同一个参数可以有几种不同的估计方法,这时就存在采用哪一个估计的问题. 另一方面,对一个参数,用矩法和极大似然法这两种方法即使得到的是同一种估计,也存在一个衡量这个估计优劣的问题.估计量的优良性准则讨论的就是:评价一个估计的标准问题.,假设总体分布的参数为.,对 一切可能的成立,则称,一、 无偏性,是的一个估计.注意!它是一个统计量.从而是随机变量.对于样本X1,X2 , ,Xn不同的取值,它也

33、会取不同的值.如果,的均值等于未知参数, 即,为的无偏估计.,去估计未知参数,有时候可能偏高,有时候可能偏低,但是平均来说它等于. “一切可能的”是指该参数估计问题中,参数取值范围内的一切可能的值.我们之所以要求对一切可能的都成立,是因为在该参数估计问题中,我们并不知道参数的真值.自然要求它在参数的一切可能取值范围内都成立:,无偏性的意义是,用一个估计量,说明,设X1,X2 , ,Xn为抽自均值为的总体X的样本,考虑的估计量:,我们举例体会怎样把握“一切可能的”.例如:若指的是正态总体N(,2)的均值,那么,它的一切可能取值范围是(-,). 若指的是方差2,则它的一切可能取值范围是(0,).,

34、例1,设总体X的均值为,方差为2, X1,X2 , ,Xn为来自该总体的样本,依第六章所讲取其样本均值和样本方差:,即样本均值和样本方差是和2的无偏估计.,定理,证明:,求证:样本标准差S不是总体标准差的无偏估计.,证明:,注意,例 7.3.2,E(S2)=2 就是Var(S)+E(S)2 =2 Var(S)0 E(S)2 =2 -Var(S)2 E(S).即:一般说S不是的无偏估计.,用估计量,去估计,其误差为:,它随样本X1,X2 , ,Xn的值而定,也是随机的,即:,二、 均方误差准则,是随机变量由于它是随机变量,我们通常是通过对它求均值来看看误差有多大.我们要注意:为了防止求均值时正误

35、差和负误差相互抵消,我们先将其平方再求均值,并将其称为均方误差,记为MSE(),即,这时两个估计中哪一个估计的均方误差小,我们就把哪一个估计看作比较优,这种判定估计量的准则叫均方误差准则.,均方误差能够分解成两部分:,均方误差准则,证明:,说明,上式表明,均方误差由两部分构成:第一部分是估计量的方差.,注意:如果一个估计量是无偏的,则第二部分是零.即有:,方差准则,如果限定在无偏估计里考虑问题,这时两个估计中哪一个估计的方差小, 我们就把哪一个估计看作比较优,这种判定估计量的准则叫方差准则.,设X1,X2 , ,Xn为抽自均值为的总体,考虑的如下两个估计:,我们看到:显然两个估计都是的无偏估计

36、.再计算其方差:,例3,表示去掉第个样本式后,对其余n-1个样本所求的样本均值.,这表明,当我们用样本均值去估计总体均值时,使用全体样本总比不使用全体样本要好.,第七章第四节 正态总体的区间估计(一),引言,前面,我们讨论了参数点估计. 它是用样本算得的一个值去估计未知参数. 但是,点估计值仅仅是未知参数的一个近似值,它没有反映出这个近似值的误差范围,使用起来把握不大. 区间估计正好弥补了点估计的这个缺陷 .,譬如,在估计湖中鱼数的问题中,若我们根据一个实际样本,得到鱼数N的极大似然估计为1000条.,若我们能给出一个区间,在此区间内我们合理地相信 N 的真值位于其中. 这样对鱼数的估计就有把

37、握多了.,实际上,N的真值可能大于1000条, 也可能小于1000条.,也就是说,我们希望确定一个区间,使我们能以比较高的可靠程度相信它包含真参数值.,湖中鱼数的真值, ,这里所说的“可靠程度”是用概率来度量的,称为置信概率,置信度或置信水平.,置信水平的大小是根据实际需要选定的.,例如,通常可取置信水平 =0.95或0.9等.,寻找置信区间的方法,一般是从确定误差限入手.,使得,称 为 与 之间的误差限 .,我们选取未知参数的某个估计量 ,根据置信水平 ,可以找到一个正数 ,,只要知道 的概率分布,确定误差限并不难.,下面我们就来正式给出置信区间的定义,并通过例子说明求置信区间的方法.,这个

38、不等式就是我们所求的置信区间.,前面已经给出了概率分布的上侧分位数(分位点)的定义,为便于应用,这里我们再简要复习一下.,在求置信区间时,要查表求分位数.,例如:,例如:,书末附有 分布、t 分布、F分布的上侧分位数表,供使用. 需要注意的事项在教材上有说明.,至于如何由标准正态分布函数表查表求得分位数,若你对分布函数定义熟悉的话,这个问题不难解决.,现在回到置信区间题目上来.,一、 置信区间定义:,则称区间 是 的置信水平(置信度、 置信概率)为 的置信区间.,可见,,即要求估计尽量可靠.,可靠度与精度是一对矛盾, 一般是在保证可靠度的条件下 尽可能提高精度.,N(0, 1),选 的点估计为

39、,二、置信区间的求法,解:,寻找一个待估参数和 估计量的函数 ,要求 其分布为已知.,有了分布,就可以求出 U取值于任意区间的概率.,对于给定的置信水平(大概率), 根据U的分布, 确定一个区间, 使得U取值于该区间的概率为 置信水平.,使,对给定的置信水平,查正态分布表得,使,从中解得,也可简记为,于是所求 的 置信区间为,从解题的过程,我们归纳出求置信区间的一般步骤如下:,1. 明确问题, 是求什么参数的置信区间?,置信水平 是多少?,2. 寻找参数 的一个良好的点估计T (X1,X2,Xn),3. 寻找一个待估参数 和估计量T的函数 S(T, ),且其分布为已知.,5. 对“aS(T,

40、)b”作等价变形,得到如下 形式:,则 就是 的100( )的置信区间.,这里,我们主要讨论总体分布为正态的情形. 若样本容量很大,即使总体分布未知,应用中心极限定理,可得总体的近似分布,于是也可以近似求得参数的区间估计.,某工厂生产的零件长度X被认为服从N( ,0.04),现从该产品中随机抽取6个,其长度的测量值如下(单位毫米):14.6,15.l,14.9,14.8,15.2,15.1.求:该零件长度的置信系数为0.95的区间估计.,n=6, =0.05, Z/2 =Z0.025=1.962=0.22 .,解:,例1,(2) 已知,因方差未知,取,对给定的置信度 ,确定分位数,使,即,从中

41、解得,由于,从中解得,2 求方差 的置信水平为 的区间估计.,于是 即为所求.,为了估计一件物体的重量,将其称了1O次,得到的重量(单位:千克)为:10.l, 10, 9.8, 10.5, 9.7,l0.l, 9.9, 10.2, 1O.3, 9.9设所称出的物体重量X服从N(,2). 求:该物体重量的置信系数为0.95的置信区间,解:,例2,n=10, =0.05, t10-1(/2)=t9(0.025)=2.2622,求: 2的置信系数为0.95的置信区间.,解:,例3(续例2),n=10, =0.05,S2=0.0583,查附表得:,三、单侧置信区间,上述置信区间中置信限都是双侧的,但对

42、于有些实际问题,人们关心的只是参数在一个方向的界限.,例如对于设备、元件的使用寿命来说,平均寿命过长没什么问题,过短就有问题了.,这时,可将置信上限取为+,而只着眼于置信下限,这样求得的置信区间叫单侧置信区间.,于是引入单侧置信区间和置信限的定义:,又若统计量 满足,由于方差 未知,取枢轴量,解: 的点估计取为样本均值,对给定的置信水平 ,确定分位数,使,即,于是得到 的置信水平为 的单侧置信区间为,将样本值代入得,的置信水平为0.95的单侧置信下限是,1065小时,同学们可通过练习,掌握各种求未知参数的 置信区间的具体方法.,这一讲,我们介绍了区间估计.,第七章第五节 正态总体的区间估计(二

43、),本节讨论两个正态总体的区间估计.在实际应用中经常会遇到两个正态总体的区间估计问题.例如:考察一项新技术对提高产品的某项质量指标的作用把实施新技术前产品的质量指标看成一个正态总体 N(1,12),而把实施新技术后产品质量指标看成另一个正态总体N(2,22).,于是,评价此新技术的效果问题,就归结为研究两个正态总体均值之差1-2的问题.,比较甲乙两厂生产某种药物的治疗效果把两个厂的药效分别看成服从正态分布的两个总体N(1,12)和 N(2,22).于是,评价两厂生产的药物的差异,就归结为研究对应的两个正态总体的均值之差1-2的问题.下面讨论如何构造两个正态总体均值之差1-2的区间估计.,设X1

44、,X2 , ,Xm是抽自正态总体 X N(1,12)的样本.它的样本均值,样本方差为:,定理,Y1,Y2 , ,Yn是抽自正态总体 Y N(2,22)的样本.它的样本均值,样本方差为:,则有以下结论:,(是S12与S22的加权平均.),证明:,(1).根据定理6.4.1,有:,X1,X2 , ,Xm与Y1,Y2 , ,Yn抽自两个不同总体. X1,X2 , ,Xm与Y1,Y2 , ,Yn是独立的.,(2).根据定理6.4.1和12=22 =2,有:, 12=22 =2,前面(1)中的:,于是由t分布的定义,就得到:,欲比较甲乙两种棉花品种的优劣.现假设用它们纺出的棉纱强度分别服从XN(1,2.

45、182)和Y N(2,1.762).试验者从这两种棉纱中分别抽取样本 X1,X2 ,X200 和 Y1,Y2 ,Y100.其样本 均值分别为:,例1,求: 1-2的置信系数为0.95的区间估计.,解:,1-2的置信系数为1- 的区间估计是:,代入1=2.18,2=1.76,m=200,n=100, =0.05,查得Z0.025=1.96,1-2的置信系数为0.95的区间估计是: -0.899,0.019.,某公司利用两条自动化流水线灌 装矿泉水.设这两条流水线所装矿泉水的体积(毫升)分别服从 XN(1,2) 和YN(2,2).现从生产线上分别抽取样本X1,X2 ,X12 和 Y1,Y2 ,Y1

46、7.其样本均值样本方差分别为:,例2,求:1-2的置信系数为0.95的区间估计.,解:,1-2的置信系数为1- 的区间估计是:,m=12,n=17,=0.05 查得t27(0.025)=2.05,1-2的置信系数为0.95的区间估计是:-0.101,2.901.,说明,基于上述认识,我们考虑这样一个问题应该如何处理.有时我们面临判定这样一个问题:未知参数是否等于某个值0.我们该怎么办呢?其实不妨这样来思考.如果果真等于0的话,在这种情况下:,通常认为小概率事件在一次试验中几乎是不会发生的.,这时如果,那就让我们来做一次抽样,然后把样本值代入,算出,刚才分析了,果真=0的话,以上小概率事件几乎是

47、不会发生的.但现实是在这次抽样试验中居然发生了.那我们可以认为这是由于0导致的.在这种情况下我们判决0.而如果现实是,在这种情况下我们则判决=0.,比较甲乙两种棉纱的强度是否有差异.,问题可以归结为判决假设: 1=2,即1-2 = 0 是否成立的问题.0-0.899,0.019.我们判决如下:1=2成立. 我们说甲乙两种棉纱的强度没有显著差异.,当然这样的判决方案不是不可能犯错误.但是统计上还是公认这种判决方案很好,所以通常都使用它.下一章我们继续讨论.,例 1(续),解:,第八章 假设检验第一节 基本概念,假设检验,参数假设检验,非参数假设检验,这类问题称作假设检验问题 .,总体分布已知, 检验关于未知参数 的某个假设,总体分布未知时的 假设检验问题,在本讲中,我们将讨论不同于参数估计的另一类重要的统计推断问题. 这就是根据样本的信息检验关于总体的某个假设是否正确.,让我们先看一个例子.,这一讲我们讨论对参数的假设检验 .,某工厂生产10欧姆的电阻.根据以往生产的电阻实际情况,可以认为其电阻值 XN( , 2),标准差=0.1.现在随机抽取10个电阻,测得它们的电阻值为:9.9, 10.1, 10.2, 9.7, 9.9, 9.9, 10, 10.5, 10.1, 10.2. 试问:从这些样本,我们能否认为该厂生产的电阻的平均值为10欧姆?,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 高等教育 > 大学课件

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报