1、1,第5章 参数估计,第一节 点估计 第二节 抽样分布 第三节 区间估计,2,点估计和区间估计,点估计: 用估计量的数值作为总体参数的估计值。 区间估计: 根据事先确定的置信度1 - 给出总体参数的一个估计范围。 置信度1 - 的含义是:在同样的方法得到的所有置信区间中,有100(1- )% 的区间包含总体参数。,3,5.1 点估计,参数估计的一些基本概念 构造估计量的方法矩法估计 判断估计量优劣的标准 估计量的标准误差,4,一、参数估计的一些基本概念,用来推断总体参数的统计量称为估计量(estimator), 其取值称为估计值(estimate) 。 同一个参数可以有多个不同的估计量。参数是
2、唯一的,但估计量(统计量)是随机变量,取值是不确定的。,5,二、矩法估计,对于一个给定的总体指标,用什么样本指标作为其估计量,这是参数估计计算首先要解决的问题。 矩法估计是用样本矩作为总体同一矩的估计量,用样本矩的函数作为总体相应矩同一函数的估计量。,6,三 判断估计量优劣的标准 (一)无偏性,估计量的数学期望与总体待估参数的真值相等:,7,样本方差无偏性的证明(重复抽样),8,(二) 有效性,在两个无偏估计量中方差较小的估计量较为有效。,9,(三)一致性,指随着样本容量的增大,估计量越来越接近被估计的总体参数。,10,(四)充分性,对于总体指标 ,若其估计量 提取了样本中包含的有关总体指标
3、的全部信息,则估计量 就称为是总体指标 的充分估计量。 (五)稳健性 在样本数据的采集和整理过程中,难免会发生一些差错,造成样本数据的污染。如果用来估计总体指标 的样本估计量对样本数据的污染不敏感,也就是说估计量的数值不受被污染数据的干扰或受其干扰不大,那么该估计量就是总体指标 的一个稳健估计量。,11,四、估计量的标准误差,(一)标准误的概念 标准误是衡量一个估计量抽样估计误差大小的一个尺度。在抽样估计中,由于待估计的总体指标是未知的,所以抽样估计误差的具体是不可知的,而标准误则给出了抽样估计误差的一般数值,可用于估计实际抽样估计误差的大小。 估计量的标准误差定义式为:,12,(二)标准误的
4、计算 1.样本均值的标准误 有放回抽样:不放回抽样:,13,2.样本比例的标准误 有放回抽样:不放回抽样:,14,(三)影响标准误的因素,总体中各个体之间的差异程度 样本容量的大小 抽取样本的方式方法,15,5.2 抽样分布,抽样分布的概念 基本的抽样分布,16,5.2 抽样分布,一、抽样分布的概念 对于给定的总体和抽样方式及样本容量,样本指标取值的概率分布就称为抽样分布。 精确分布:确定样本容量下的抽样分布。目前已导出的样本统计量的精确分布都是在正态总体条件下的抽样分布,并且主要用在样本容量较小的情况下,所以精确分布也称为正态总体小样本分布。 极限分布(任意分布):样本容量趋于无穷大时的抽样
5、分布。极限分布一般是在不限定总体分布的具体形式下导出的,并且只能在样本容量较大时使用,所以极限分布又称为任意总体大样本分布。,17,二、基本的抽样分布,抽样分布在统计推断中具有十分重要的作用,常用的抽样分布有:样本均值的抽样分布、样本比例的抽样分布和样本方差的抽样分布。 (一)样本均值的抽样分布 根据中心极限定理,可知: 大样本条件下变换为标准正态分布若 未知用 代替。,18,小样本条件下,经s替换后的随机变量服从自由度为n-1的t分布,即:(二)样本比例的抽样分布对于来自两点分布的一个大随机样本,样本比例 的概率分布就趋近于以总体比例 为散布中心、且以其标准误 的正态分布,即有:变换为标准正
6、态分布,19,(三)样本方差的抽样分布对于来自正态总体的一个容量为n的简单随机样本,其样本方差与总体方差的比值的(n-1)倍,服从自由度为(n-1)的 分布,即有:,20,5.3 区间估计,区间估计的概念 总体均值的区间估计 总体比例的区间估计 总体方差的区间估计 单侧置信区间 样本容量的确定,21,一、区间估计的概念,在事先给定的概率保证程度下,根据样本估计量的概率分布,确定出可能包含未知总体参数的某个区间,作为对未知总体参数的估计。 记待估计的未知总体指标为 ,样本估计量为 ,事先给定的概率为 ,若根据 的概率分布可以计算出一个区间 ,使得该区间包含未知总体参数 的概率等于事先给定的概率
7、,即有等式:成立,则该区间 就称为未知总体参数的置信区间。,22,二、总体均值的区间估计,总体正态?,n30?,2已知?,否,是,是,否,否,是,实际中总体方差总是未知的,因而这是应用最多的公式。在大样本时t值可以用z值来近似。,根据中心极限定理得到的近似结果。 未知时用s来估计。,增大n; 非参数方法等。,23,(一)大样本情形下总体均值的区间估计,由中心极限定理可知,对于大样本而言,样本均值的概率分布总可以近似地看作是正态分布。总体均值的置信区间为:(二)小样本情形下总体均值的区间估计 对来自正态分布总体的一个小样本,在给定的置信概率 之下,服从自由度为(n-1)的t分布。总体均值的置信区
8、间为:,24,例子:,儿童电视节目的赞助商希望了解儿童每周看电视 的时间。下面是对100名儿童进行随机调查的结果(小时)。计算平均看电视时间95%的置信区间。,25,Example,用Excel分析工具库的“描述统计”可以得到左边的结果。 置信下限等于 27.191-1.661=25.53 置信上限等于 27.191+1.661=28.852 结论:我们有95%的把握(置信度)认为区间25.53,28.852包含总体的真实值。,26,关于置信水平含义的说明,样本均值的 抽样分布,在所有的置信区间中,有(1-) *100% 的区间包含 总体真实值。 对于计算得到的一个具体区间,“这个区间包含总体
9、真实值”这一结论有(1-) *100%的可能是正确的。 说“总体均值有95%的概率落入某一区间”是不严格的,因为总体均值是非随机的 。 置信区间的Excel模拟,27,当 时总体比例的置信区间 可以使用正态分布来进行区间估计。(样本比例记为 ,总体比例记为p),三、总体比例的置信区间,28,总体比例的置信区间:例子,解:显然有 因此可以用正态分布进行估计。 /2=1.645,结论:我们有90的把握认为悉尼青少年中每天都抽烟的青少年比例在19.55%23.85%之间。,1986年对悉尼995名青少年的随机调查发现,有21.7%的人每天都抽烟。试估计悉尼青少年中每天都抽烟的青少年比例的90%的置信
10、区间。,29,四、总体方差的区间估计(),总体服从正态分布,均值未知时:关于 2 的以下随机变量服从卡方分布:总体方差在置信水平1-下的置信区间为:,30,总体方差的区间估计:例子,检验一批电子元件,共抽取了10件检验,电子元件使用寿命的样本方差为8175.56,试在95%的置信概率下对该批产品使用寿命的方差和标准差进行区间估计。 解:电子元件的使用寿命可看作服从正态分布,根据正态总体方差置信区间的公式,可得该批电子元件使用寿命的方差的置信区间为:得:两边开平方,得标准差的置信区间:,31,五、单侧置信区间,根据问题的性质将待估总体指标的上置信限或下置信限指定在其上界或下界值上,并根据给定的置
11、信概率求出另一置信限而得到的置信区间。 对于给定的置信概率 ,若有:或者,有:则称区间 和 为总体指标 的单侧置信区间。,32,5.4 关于抽样误差的几个概念,实际抽样误差 标准误 最大允许误差,33,实际抽样误差,样本估计值与总体真实值之间的绝对离差称为实际抽样误差。由于在实践中总体参数的真实值是未知的,因此实际抽样误差是不可知的;由于样本估计值随样本而变化,因此实际抽样误差是一个随机变量。,34,标准误(standard error),标准误:统计量抽样分布的标准差简称为标准误。它可以用来衡量抽样误差的一般水平,也称为抽样平均误差。例如对简单随机抽样中的样本均值有:或我们通常说“抽样调查中
12、可以对抽样误差进行控制”,就是指的抽样平均误差。由上面的公式可知影响抽样误差的因素包括:总体内部的差异程度;样本容量的大小;抽样的方式方法。,35,最大允许误差,最大允许误差(allowable error):在确定置信区间时样本均值(或样本比例)加减的量,一般用E来表示,也等于置信区间长度的一半。在英文文献中也称为margin of error。置信区间=最大允许误差是人为确定的,是调查者可以容忍的误差水平。,36,5.5 必要样本容量的计算,样本容量越大抽样误差越小。由于调查成本方面的原因,在调查中我们总是希望抽取满足误差要求的最小的样本容量。,37,如何确定必要样本容量?,必要样本容量受
13、以下几个因素的影响: 1、总体标准差。总体的变异程度越大,必要样本容量也就越大。 2、最大允许误差。最大允许越大,需要的样本容量越小。 3、置信度1- 。要求的置信度越高,需要的样本容量越大。 4、抽样方式 。其它条件相同,在重复抽样、不重复抽样;简单随机抽样与分层抽样等不同抽样方式下要求的必要样本容量也不同。,38,简单随机抽样下估计总体均值时 样本容量的确定(重复抽样),式中的总体方差可以通过以下方式估计: 根据历史资料确定 通过试验性调查估计,39,简单随机抽样下估计总体比例时 样本容量的确定(重复抽样),式中的总体比例p可以通过以下方式估计: 根据历史资料确定 通过试验性调查估计 取为
14、0.5。,40,不重复抽样时的必要样本容量,或式中n0是中复抽样时的必要样本容量。可见不重复抽样时需要的样本容量要小一些。,41,样本容量的确定(实例1),需要多大规模的样本才能在 90% 的置信水平上保证均值的误差在 5 之内? (前期研究表明总体标准差为 45.),42,样本容量的确定(实例2),一家市场调研公司想估计某地区有电脑的家庭所占的比例。该公司希望对比例p的估计误差不超过0.05,要求的可靠程度为95%,应抽多大容量的样本(没有可利用的p估计值)?,解: 已知E=0.05,=0.05,Z/2=1.96,当p未知时取为0.5。,43,实例3,你在美林证券公司的人力资源部工作。你计划在员工中进行调查以求出他们的平均医疗支出。 你希望有 95% 置信度使得样本均值的误差在$50 以内。 过去的研究表明 约为 $400。需要多大的样本容量?,44,小结,(1)根据总体是否正态、总体方差是否已知和样本容量的大小,计算总体均值的置信区间有不同的公式。最常用的公式为(2)在 时总体比例的置信区间为(3)必要样本容量的计算公式:,