收藏 分享(赏)

统计学第5章.ppt

上传人:dreamzhangning 文档编号:3237634 上传时间:2018-10-08 格式:PPT 页数:53 大小:1.53MB
下载 相关 举报
统计学第5章.ppt_第1页
第1页 / 共53页
统计学第5章.ppt_第2页
第2页 / 共53页
统计学第5章.ppt_第3页
第3页 / 共53页
统计学第5章.ppt_第4页
第4页 / 共53页
统计学第5章.ppt_第5页
第5页 / 共53页
点击查看更多>>
资源描述

1、第五章 参数估计,第一节 参数估计原理与点估计 第二节 区间估计 第三节 各种抽样设计下的参数估计,第一节 参数估计原理与点估计,一、统计推断的一般问题 二、参数估计原理 三、点估计,一、统计推断的一般问题,1、统计推断的概念 是指利用概率论的理论,在抽样调查或实验的基础上,利用样本的实际资料计算样本指标,并据以推算总体相应数量特征的一种统计分析方法。 2、统计推断原因 实际工作中许多现象不可能对总体的所有单位进行调查只能组织抽样调查。 3、统计推断的特点 建立在随机取样的基础上。 运用概率估计的方法。 抽样误差可以事先计算并加以控制。,4、统计推断的内容 1)参数估计:从总体中抽取一部分单位

2、进行调查,进而利用样本提供的信息来推断总体的未知参数和数值特征的方法和过程。 2)假设检验:先对总体的状况作某种假设,然后再根据抽样推断的原理,根据样本观察资料对所作假设进行检验,来判断这种假设的真伪,以决定我们行动的取舍。,5、有关抽样的基本概念,1)总体和样本 2)参数和统计量 3)样本容量和样本个数 4)重复抽样和不重复抽样 5)抽样误差,抽样误差,1、概念:抽样误差是指不包括登记性误差和系统性误差在内的随机误差,它衡量了抽样估计的精确度。,抽样误差和登记性误差登记性误差是所有统计调查都可能发生的,而抽样误差不是由于调查失误所引起的,它是随机抽样所特有的误差。,抽样误差是一种代表性误差,

3、但不是所有代表性误差都是抽样误差。,系统偏误是由于违反抽样随机原则,有意地抽选较好或较差的单位进行调查,这种系统性原因造成的样本代表性不足所引起的误差。 系统偏误和登记误差都属于思想、作风、技术问题,可以防止和避免,而抽样误差则是不可避免,难于消灭,只能加以控制。,2、影响抽样误差大小的因素:,总体各单位标志值的差异程度。(差异程度越大,抽样误差越大) 样本的单位数(样本单位数越多,抽样误差越小) 抽样方法(重复抽样的误差比不重复抽样的误差要大些) 抽样调查的组织形式(简单随机抽样、类型抽样、等距抽样、整群抽样),3.与抽样误差有关的三个概念,(1)抽样实际误差:指某一次具体抽样中,样本指标值

4、与总体参数真实值之间的偏差。(2)抽样平均误差:即通常所说的抽样误差,也称抽样标准误。(3)抽样极限/允许误差:,样本平均数与总体平均数的差额,样本成数与总体成数的差额,(2)抽样平均误差, 抽样平均误差是指所有可能的样本指标与总体指标之间的平均差异程度,是反映抽样误差的一般水平的指标。 用样本平均数的标准差或样本成数的标准差来作为衡量其抽样误差一般水平的尺度。,样本平均数的抽样平均误差,重复抽样的条件下:,不重复抽样条件下:,计算抽样平均误差时,用样本标准差s代替总体标准差。,样本成数的抽样平均误差,样本成数的抽样平均误差表明各样本成数和总体成数绝对离差的一般水平。,在重复抽样的条件下:,在

5、不重复抽样的条件下:,样本成数的抽样平均误差例题:,某钢铁厂生产某种钢管,现从该厂某月生产的500根产品中抽取一个容量为100根的样本。已知一级品率为60%,试求样本一级品率的抽样平均误差。,解:已知p=60% 、n=100、N=500,(3) 抽样极限误差,抽样极限误差是指一定概率下抽样误差的可能范围,说明样本估计量在总体参数周围变动的范围,记作。 设待定的总体参数是,用以估计该参数的统计量是 ,抽样估计的极限误差是 ,即 这个极限误差是根据研究对象的变异程度和分析任务的性质来确定的允许误差范围。,1、参数估计的概念:从总体中抽取一部分单位进行调查,进而利用样本提供的信息来推断总体的未知参数

6、和数值特征的方法和过程。 2、参数估计包括的内容: 确定估计值 确定估计的优良标准并加以判别 求估计值和被估计参数之间的误差范围 计算在一定误差范围内所作推断的可靠程度等 3、参数估计的两种形式: 点估计和区间估计,二、参数估计原理,三、点估计,点估计,以样本指标直接估计总体参数。,评价准则,的数学期望等于总体参数,即,该估计量称为无偏估计。,无偏性,有效性,当 为 的无偏估计时, 方差 越小,无偏估计越有效。,一致性,对于无限总体, 如果对任意,则称,的一致估计。,是,估计量,常用的点估计量,4、总体参数点估计的特点:,优点:简便、易行、原理直观 缺点:这种估计没有表明抽样估计的误差,更没有

7、指出误差在一定范围内的概率保证程度有多大。,第二节 区间估计,一、区间估计的含义 二、总体均值的区间估计 三、总体成数的区间估计 四、正态总体方差的区间估计,一、区间估计的含义,进行总体参数区间估计应具备的要素:,估计值、抽样误差范围、概率保证程度(置信度) 抽样误差范围决定估计的精确度,概率保证程度决定估计的可靠性。 抽样误差范围越大,精确度越低,反之就越高; 概率保证程度越大,可靠性越高,反之就越低。 在抽样估计时,希望精度高些,可靠性大些,但两者同时实现是有矛盾的。,区间估计,估计未知参数所在的可能的区间。,评价准则,随机区间,置信度,精确度,随机区间,包含,(即可靠程度)越大越好。,的

8、概率,的平均长度,(误差范围)越小越好,一般形式,或,总体参数,估计值,误差范围,:一定倍数的抽样误差,例如:,抽样误差,一定时,,越大,,概率(可靠性)越大;,随之增大,,精确度就差。,总体参数区间估计的方法:,根据已经给定的抽样误差范围,求概率保证程度。 步骤:抽取样本,计算样本指标计算标准差、抽样平均误差结合给定的抽样误差范围,求出z值 根据z值查表得F(z),根据给定的置信度要求,来推算抽样极限误差的可能范围 步骤:抽取样本,计算样本指标计算标准差,抽样平均误差根据F(z)查出z值计算极限误差求出估计总体指标的上下限,作区间估计,1.总体方差已知时当 , )时,来自该总体的简单随机样本

9、的样本均值 服从数学期望为 、方差 为 的正态分布,将样本均值统计量 标准化,得到 统计量:根据区间估计的定义,在给定的显著性水平 下,总体均值在1-的置信度下的置信区间为:( , ),即其中, 即抽样平均误差 , 即抽样允许误差。,二、总体均值的区间估计,例 某厂生产的零件长度服从正态分布,从该厂生产的零件中随机抽取25件,测得它们的平均长度为30.2厘米。已知总体标准差 =0.45厘米。要求:(1)计算抽样平均误差和抽样允许误差。(2)估计零件平均长度的可能范围( =0.05)。已知: , ), =30.2, =25,1- =0.95,,(1)抽样平均误差 查标准正态分布表可知在 =0.0

10、5时, =1.96,所以,抽样允许误差 (2)总体均值的置信区间为:( , )=( , )= (30.02,30.38)即我们可以以95%的概率保证该厂零件平均长度在30.02厘米到30.38厘米之间。,2.总体方差未知时总体均值的区间估计,*总体服从正态分布,但总体方差 未知,可以以样本方差 代替,但新的统计量不服从标准正态分布,而是服从自由度为 n1的 t 分布。 *给定置信度1 ,可查 t 分布表确定临界值 从而总体均值的置信区间为:( , )其中, 即为抽样平均误差;即为抽样允许误差。上式也可表示为:,例 从某市高中生中按不重复抽样方法随机抽取25名调查每周收看电视的时间,分组资料见表

11、7-2。表7-2 每周看电视时间要求:(1)计算抽样平均误差和抽样允许误差;(2)估计该市全体高中生每周平均看电视时间的置信区间(给定的显著性水平为0.05)。,已知: =25, =0.05, N远大于n,不重复抽样可按重复抽样处理样本均值 样本方差=4.33查 分布表知 =0.05时,临界值 = =2.0639,因此,抽样平均误差抽样允许误差,总体均值置信度为95%的置信区间为:( , ) = =(5-0.859,5+0.859) =(4.14,5.86)即我们可以以95%的把握保证该市高中生每周平均看电视时间在4.14到5.86小时之间。,*在大样本下,样本比例的分布趋近于均值为p 、方差

12、为的正态分布。因此,给定置信度1 ,查正态分布表得 ,则样本比例的抽样极限误差为:所以,总体比例的置信度为1 的置信区间为:,三、总体成数的区间估计,例题分析,例 某厂对一批产成品按不重复抽样方法随机抽选200件进行质量检测,其中一等品160件,试以90%的概率估计一等品率的范围。已知: ,1- =90%, =200查表知: =1.645计算得样本比例的抽样平均误差为:抽样极限误差为:所以,该批产品的一等品比例的置信区间为:即这批产品的一等品率在75.35% 到84.66% 之间。,四、正态总体方差的区间估计,1.大样本情况下,样本标准差S的分布近似服从正态分布 ,所以,总体标准差的置信度为1

13、- 的置信区间近似为:( )2.小样本情况下,若总体呈正态分布且其均值和方差未知,则总体方差的置信区间可由如下统计量的分布来确定:总体方差的置信度为1- 的置信区间为:( , ),例题应用,例 从某班学生中随机抽取16人,计算得语文平均成绩为75分,方差为25分。假定学生成绩服从正态分布,试求总体方差及标准差的置信区间(给定的显著性水平为0.05)。解:已知n=25, =0.05,查 分布表确定两个临界值:= =将临界值数字带入上述公式中,总体方差和标准差的置信度为1-的置信区间分别为: ( , ),即为(13.64, 59.89);( , ),即为(3.69,7.74)。,第三节 各种抽样设

14、计下的参数估计,一、抽样方案设计的基本原则 二、简单随机抽样 三、类型抽样 四、整群抽样 五、机械抽样 六、多阶段抽样,一、抽样方案设计的基本原则,(一)保证实现抽样随机性的原则 (二)保证实现最大的抽样效果的原则抽样设计的原则应是在一定的误差和可靠性的要求下选择费用最少的样本设计。 在通常情况下,提高抽样精度的要求与节省费用的要求往往有矛盾,因为要求抽样误差愈小,就要增加抽样单位数目,相应地要增加调查费用。但实际工作中并非抽样误差最小的方案就是最好的方案,因为不同的调查项目对于精度的要求往往是不同的,而且调查费用和精度之间并不是线性关系,可以用图表示。,此图表示用100%的费用可以达到100

15、%的精度。但如果用75%费用就可以达到98%的精度,若98%的精度可满足需要时,就没有必要再花25%的费用来获取余下的2%的精度。,二、简单随机抽样,简单随机抽样,又称纯随机抽样。它是对总体不作任何处理,不进行分类也不搞排队,而是从总体的全部单位中随机抽选样本单位。 具体做法: 直接抽选法 抽签法 随机数码表法 适用情况: 对调查对象很少了解; 总体单位的排列没有秩序; 抽到的单位比较分散时也不影响调查工作。,三、类型抽样,概念:类型抽样又称分类抽样,是先对总体各单位按一定标志加以分类(层),然后再从各类(层)中按随机原则抽取样本,由各类(层)内的样本组成一个总的样本。 优点: 可以提高样本的

16、代表性。由于分类使差别大的单位分开,使样本单位的分布更接近总体的分布; 可以降低影响抽样误差的方差。由于进行了分类,所以影响抽样误差的只是各个组之内的方差,而各个组之间的方差已经不再影响抽样误差了,因为每个组都进行了抽样调查,因此对所有的组来讲,实际上是全面调查。而由于分类的结果,各个组内的方差是比较小的。 作用: 利用已知的信息提高抽样效率; 抽样的组织工作比较方便; 掌握总体中各个子总体的情况。,确定各类型组抽样单位数的方法,1、比例分配法:不考虑各组标志差异程度,而是根据统一的比例来确定各组要抽取的样本单位数,即通常以各类型组的单位数占全及总体单位数的比例,来确定各组抽取的单位数。,2、

17、尼曼分配法:根据抽样误差大小与标志差异程度、抽样单位数等关系来确定。对于标志变动程度大的组,抽取样本单位数的比例要大些;反之,对于标志变动程度小的组,抽取样本单位数的比例相应地可小些。,四、整群抽样,概念:也称为集团抽样,它是将总体各单位划分成若干群,然后以群为抽样单位,从其中随机抽取部分群,对中选群的所有单位进行全面调查的抽样组织方式。 特点:整群抽样是对中选群进行全面调查,所以只存在群间抽样误差,不存在群内抽样误差。这一点和类型抽样只存在组内抽样误差恰好相反。因此,整群抽样和 类型抽样虽然都要对总体各单位进行分组,但对分组所起的作用则是完全不同的:类型抽样分组的作用在于尽量缩小组内的差异程

18、度,达到扩大组间方差提高效果的目的。而整群抽样分组的作用则在于尽量扩大群内的差异程度,从而达到缩小群间方差提高效果的目的。 作用: 当总体缺乏包括全部总体单位的抽样框,无法进行抽选时须采用整群抽样; 比较方便和节约费用。 局限性:样本单位比较集中,在总体中分布不均匀,抽样误差大。,整群抽样的影响因素,抽出群数多少。设所有的群数为R,抽出的群数为r。显然抽出的r的数目越多,抽样误差越小; 群间方差,即群与群之间的差异程度。其计算方法如下:,(1)平均数的群间方差:,(2)成数的群间方差:,3、抽样方法:整群抽样都采用不重复抽样方法,计算时要使用修正系数。,整群抽样误差的计算,案例:某工厂生产某种

19、灯泡,在连续生产720小时中每隔24小时抽取1小时的全部产品加以检查,根据抽样资料计算结果,灯泡平均使用寿命1200小时,群间方差为60小时,计算样本平均数的抽样误差,并以95%的可靠程度推断该批灯泡的平均使用寿命。,五、机械抽样,概念:又称等距抽样或系统抽样,是对研究的总体按一定的顺序排列,每隔一定的间隔抽取一个或若干个单位,并把这些抽取的单位组成样本进行观察的一种抽样方法。,作用:可以保证所取到的样本单位均匀地分布在总体的各个部分,有较高的代表性,可以减小抽样误差。,机械抽样的方式,机械抽样中作为总体各单位顺序排列的标志,可以是无关标志,也可以是有关标志。按照排队所依据的标志不同,可分为:

20、 (一)无关标志排队,是指排列的标志和单位标志值的大小无关或不起主要的影响作用。例如,工业产品质量抽查按时间顺序取样,农产量抽样调查按田间的地理顺序取样,家计调查按街道的门牌号码抽取调查户等。 (二)有关标志排队:是指作为排列顺序的标志和单位标志值的大小有密切关系。例如,农产量抽样调查,利用近几年平均亩产或当年估计亩产排队;职工家计调查按职工平均工资排队抽取调查单位或调查户等。 按有关标志顺序排队,并根据样本单位数加以n等分之后,对每一部分抽取一个单位有三种方法: 随机起点等距抽样: a, k+a, 2k+a, ,( n-1)k+a 半距中点取样:,对称等距取样: i, 2k-i,2k+i,4

21、k-i,(n-2)k+i,nk-i等等。,机械抽样的抽样误差,机械抽样的平均误差和标志的排列顺序有关,情况比较复杂。 无关标志排队,近似于简单随机抽样的误差,可以采用简单随机抽样误差公式来近似反映。即:,或:,有关标志排队:可以看作一种特殊的分类抽样,可以用类型抽样的抽样误差公式来计算抽样误差。即:,在等距抽样时,每个组内只抽取一个单位,因此,,六、多阶段抽样,概念:就是在抽样调查抽选样本时,分两个或两个以上的阶段来进行。 作用: 当抽样调查的面很广,没有一个包括所有总体单位的抽样框,或者总体范围太大无法直接抽取样本时,须采用多阶段抽样。 可以相对地节约人力物力。 可以利用现成的行政区划、组织

22、系统作为划分各阶段的依据,为组织抽样调查提供方便。 步骤:省,地块,农户,乡或村,县,注意:整群抽样中每一阶段抽样都会存在抽样误差。为提高抽样指标的代表性,各阶段抽取群数的安排和抽样方式,都应注意样本单位的均匀分布,1、适当多抽第一阶段的群数,使样本单位在总体中得到均匀分布。,2、根据方差的大小,来考虑各阶段抽取群数的多少。群间方差大的阶段适当多抽一些,反之,则可少抽一些。,在各阶段灵活运用各种抽样组织方式,而且尽可能利用现成的资料。,两阶段抽样的步骤和特点,特点: 两阶段抽样和类型抽样的区别两阶段抽样在第一阶段只是随机地抽取部分的组;而类型抽样在第一阶段取了全部的组。 两阶段抽样和整群抽样的

23、区别两阶段抽样在第二阶段只是在中选组中随机地抽取部分单位,而整群抽样在第二阶段抽取了中选组的全部单位。 所以,两阶段抽样在组织技术上是类型抽样和整群抽样的综合。,两阶段抽样误差的计算,计算案例,某地区共有30000户居民分成100群,每群包括300户,现欲调查居民的收入水平。如果用两阶段抽样,先以群为第一阶段抽取单位,从100群中抽6群,然后以住户为第二阶段的抽取单位,从抽中的群体中每群抽3户,调查其平均收入。计算两阶段样本平均数的抽样误差,并以95%的可靠程度推断该地区居民每户平均收入。,计算,R=100,M=300,r=6,m=3,*必要抽样单位数的确定,确定抽样单位数的意义: 认识允许有

24、一定的误差。在一定的允许误差的条件下,只需要抽取一定的样本单位。抽取的样本单位数过多,会增加不必要的开支,造成人力物力浪费;但若抽取的样本单位数过少,又会使误差增大,达不到所要求的准确程度。 抽样数目是影响抽样误差的重要因素,如果其他条件都相同,要改变对抽样误差的要求,就可以相应地改变抽样数目,用增加或减少抽样数目的办法来控制抽样误差的大小。 确定抽样单位数的原则:在保证抽样推断达到预期的可靠程度和精确程度的要求下,确定一个恰当的抽取样本单位的数目。 确定抽样单位数的依据: 调查者对一项抽样推断的可靠程度和精确程度的要求; 总体标志的变异程度; 抽样组织方法; 人力、物力和财力的许可情况。,抽样单位数的计算1,计算简单随机抽样平均指标的必要抽样单位数公式:,重复抽样,不重复抽样,简单随机抽样成数的必要抽样数目公式:,重复抽样,不重复抽样,抽样单位数的计算2,计算类型抽样的必要抽样单位数的公式:,不重复抽样,重复抽样,整群抽样计算必要抽样公式:,机械抽样计算必要抽样单位数公式:,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 实用文档 > 往来文书

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报