收藏 分享(赏)

统计学第5章++抽样分布.ppt

上传人:j35w19 文档编号:4485990 上传时间:2018-12-30 格式:PPT 页数:90 大小:12.86MB
下载 相关 举报
统计学第5章++抽样分布.ppt_第1页
第1页 / 共90页
统计学第5章++抽样分布.ppt_第2页
第2页 / 共90页
统计学第5章++抽样分布.ppt_第3页
第3页 / 共90页
统计学第5章++抽样分布.ppt_第4页
第4页 / 共90页
统计学第5章++抽样分布.ppt_第5页
第5页 / 共90页
点击查看更多>>
资源描述

1、第 5章 抽样分布,1、常见的抽样方法 2、三种不同性质的分布 3、 一个总体参数推断时样本统计量分布 4、两个总体参数推断时样本统计量分布,学习目标,了解常见的抽样方法 区分总体分布、样本分布、抽样分布 理解抽样分布与总体分布的关系 掌握单总体参数推断时样本统计量的分布 掌握双总体参数推断时样本统计量的分布,5.1 常见的抽样方法,指样本单位的抽取不受主观因素及其他系统性因素的影响,每个总体单位都有均等的被抽中机会,一、抽样推断,按照随机原则 从全部研究对象中抽取一部分单位进行调查,并以调查结果对总体数量特征作出具有一定可靠程度的估计与推断,从而认识总体的一种统计方法。,并非所有的抽样估计都

2、按随机原 则抽取样本,也有非随机抽样,总体,随机样本,非随机样本,与总体分布特征相同,与总体分布特征不同,按随机原则抽取样本单位 以样本的数量特征推断总体的数量特征 抽样推断产生抽样误差,但抽样误差可以事先计算并控制,二、抽样推断的特点,与全面调查相比,抽样调查既节省了人力、物力、财力和时间,又达到了认识总体数量特征的目的。我国在1994年确立了以周期性普查为基础,以经常性抽样调整为主体,同时辅之以重点调查、科学核算等综合运用的统计调查方法体系。,三、抽样推断的理论基础,大数定律,中心极限定律,表明大量随机观象平均结果具有稳定性的性质。大数定律论证了如果独立随机变量总体存在有限的平均数和方差,

3、则对于充分大的样本可以近乎100%的概率,期望样本平均数与总体平均数的绝对离差为任意小。,如果变量总体存在有限的平均数和方差,那么不论这个总体的分布如何,随着样本容量的增加,样本平均数的分布,便趋近于正态分布。,不可能进行全面调查时 不必要进行全面调查时 来不及进行全面调查时 对全面调查资料进行补充修正时,抽样推断的应用,1、根据取样方式,重复抽样,从总体N个单位中随机抽取一个样本容量为n的样本,每次从总体中抽取一个,并把结果登记下来,又放回总体中重新参加下一次的抽选。又称放回抽样,不重复抽样,每次从总体中抽选一个单位后就不再将其放回参加下一次的抽选。又称不放回抽样.,总体单位数N不变,同一单

4、位可能多次被抽中。,总体单位数减少n,同一单位只可能被抽中一次。,四、抽样方法分类,2、根据对样本的要求不同,考虑顺序抽样,不考虑顺序抽样,考虑各单位的中选顺序。,ABCCBA,不考虑各单位的中选顺序。,ABCCBA,考虑顺序的重复抽样,不考虑顺序的不重复抽样,考虑顺序的不重复抽样,不考虑顺序的重复抽样,综合起来共有四种抽样方法,样本的可能数目,考虑顺序的不重复抽样,不考虑顺序的不重复抽样,考虑顺序的重复抽样,不考虑顺序的重复抽样,简单随机抽样 分层抽样 系统抽样 整群抽样,3、根据抽取的原则(抽样调查的组织形式),(1)它要求被抽取样本的总体的个体数有限;,(2)它是从总体中逐个进行抽取;,

5、(3)它是一种等概率抽样。,简单随机抽样是在特定总体中抽取样本,总体中每一个体被抽取的可能性是等同的,而且任何个体之间彼此被抽取的机会是独立的。如果用从个体数为N的总体中抽取一个容量为n的样本,那么每个个体被抽取的概卒等于,简单随机抽样(纯随机抽样),简单随机抽样的方法,练习:,先将总体中的所有个体(共N个)编号(号码可以从1到N),并把号码写在形状、大小相同的号签上(号签可以用小球、卡片、纸条等制作),然后将这些号签放在同一个箱子里,进行均匀搅拌。抽签时,每次从中抽出1个号签,连续抽取n次,就得到一个容量为n的样本。对个体编号时,也可以利用已有的编号。例如学生的学号,座位号等。,抽签法,随机

6、抽样并不是随意或随便抽取,因为随意或随便抽取都会带有主观或客观的影响因素,随机数表是统计工作者用计算机生成的随机数,并保证表中的每个位置上的数字是等可能出现的。,随机数表并不是唯一的,因此可以任选一个数作为开始,读数的方向可以向左,也可以向右、向上、向下等等。,用随机数表进行抽样的步骤:将总体中个体编号;选定开始的数字;获取样本号码。,由于随机数表是等概率的,因此利用随机数表抽取样本保证了被抽取个体的概率是相等的。,随机数表法,如何用随机数表来抽取样本。 为了检验某种产品的质量,决定从40件产品中抽取10件进行检查,利用随机数表抽取这个样本 16 22 77 94 39 49 54 43 54

7、 82 17 37 93 23 78 87 35 20 96 43 84 26 34 91 64 84 42 17 53 31 57 24 55 06 88 77 04 74 47 67 21 76 33 50 25 83 92 12 06 76 63 01 63 78 59 16 95 55 67 19 98 10 50 71 75 12 86 73 58 07 44 39 52 38 79 33 21 12 34 29 78 64 56 07 82 52 42 07 44 38 15 51 00 13 42 99 66 02 79 54 57 60 86 32 44 09 47 27 96

8、 54 49 17 46 09 62 90 52 84 77 27 08 02 73 43 28,注 将总体中的N个个体编号时可以从0开始,例如N100时编号可以是00,01,02,99,这样总体中的所有个体均可用两位数字号码表示,便于运用随机数表。,计算机模拟法,是将随机数字编制为程序存储在计算机中,需要时将总体中各单位编上号码,启用随机数字发生器输出随机数字,然后从总体中找到相应总体单位形成样本。,由于每排的座位有40个,各排每个号码被抽取的概率都是 ,因而第1排被抽取前,其他各排中各号码被抽取哪率也是 ,也就是说被抽取的概率是 ,每排的抽样也是简单随机抽样,这种抽样的方法是系统抽样。,(

9、1)一个礼堂有30排座位,每排有40个座位。一次报告会礼堂坐满了听众。会后为听取意见留下了座位号为20的30名听众进行座谈。,当总体的个数较多时,将总体分成均衡的部分,然后按照预先定出的规则,从每一部分中抽取1个个体,得到所需要的样本,称为系统抽样。,系统抽样(机械抽样、等距抽样 ),系统抽样的步骤为:,(1)采取随机方式将总体中的个体编号。,(2)将整个的编号均衡地分段,确定分段间隔k。,是整数时, ; 不是整数时,从N中剔除一些个体,使得其为整数为止。,(3)第一段用简单随机抽样确定起始号码l。,(4)按照规则抽取样本:l;lk;l2k;lnk,系统抽样时,将总体中的个体均分后的每一段进行

10、抽样时,采用简单随机抽样;系统抽样每次抽样时,总体中各个个体被抽取的概率也是相等的;如总体的个体数不能被样本容量整除时,可以先用简单随机抽样从总体中剔除几个个体,然后再按系统抽样进行。需要说明的是整个抽样过程中每个个体被抽到的概率仍然相等。,例如,为了了解参加某种知识竞赛的1000名学生的成绩,打算从中抽取一个容量为50的样本。假定这1000名学生的编号是1,2,1000,由于50:10001:20,我们将总体均分成50个部分,其中每一部分包括20个个体,例如第1部分的个体编号是1,2,20。然后在第一部分随机抽取一个号码,这样得到一个容量为50的样本:18,38,58,978,998,在上面

11、的抽样中,由于在第1部分(个体编号120)中的起始号码是随机确定的,每个号码被抽取的概率都等于0.05,所以在抽取第1部分的个体前,其他各部分中每个号码被抽取的概率也都是0.05.就是说,在这个系统抽样中,每个个体被抽到的概率都是0.05.,排列次序用的标志有两种:,选择标志与抽样调查所研究内容无关, 称无关标志排队。,选择标志与抽样调查所研究的内容有关, 称有关标志排队。,机械抽样按样本单位抽选的方法不同,可分为三种:,随机起点等距抽样,半距起点等距抽样,k k k,k,(k为抽取间隔),示意图:,对称等距抽样,示意图:,k k k,2k-a 2k+a 4k-a 4k+a,a,k,(k为抽取

12、间隔),分层抽样(分类抽样),当已知总体由差异明显的几部分组成时,为了使样本充分地反映总体的情况,按照各部分所占比例进行抽样。各部分叫做层。,分层抽样适用于总体由差异明显的几部分组成的情况,每一部分称为层,在每一层中实行简单随机抽样。这种方法较充分地利用了总体己有信息,是一种实用、操作性强的方法。,分层抽样的一个重要问题是一个总体如何分层。分层抽样中分多少层,要视具体情况而定。总的原则是:层内样本的差异要小,而层与层之间的差异尽可能地大,否则将失去分层的意义。,类型的划分:,必须有清楚的划类界限; 必须知道各类中的单位数目和比例; 分类型的数目不宜太多。,类型抽样的好处是:,样本代表性高、抽样

13、误差小、抽样调查成本较低。如果抽样误差的要求相同的话则抽样数目可以减少。,例2、一个单位的职工有500人,其中不到35岁的有125人,3549岁的有280人,50岁以上的有95人。为了了解该单位职工年龄与身体状况的有关指标,从中抽取100名职工作为样本,应该怎样抽取?,分层抽样的抽取步骤:,(1)总体与样本容量确定抽取的比例。,(2)由分层情况,确定各层抽取的样本数。,(3)各层的抽取数之和应等于样本容量。,(4)对于不能取整的数,求其近似值。,整群抽样,整群抽样即从全及总体中成群地抽取样本单位,对抽中的群内的所有单位都进行观察。,整群抽样的好处:组织工作比较简单方便,适用于一些特殊的研究对象

14、。其不足之处是,一般比其它抽样方式的抽样误差大。,三种抽样方法的比较,5.2 三种不同性质的分布,总体分布 样本分布 抽样分布,总体中各元素的观察值所形成的分布 分布通常是未知的 可以假定它服从某种分布,总体分布 (population distribution),一个样本中各观察值的分布 也称经验分布 当样本容量n逐渐增大时,样本分布逐渐接近总体的分布,样本分布 (sample distribution),复习:,几组重要的概念,总体的性质,一个统计问题总有它明确的研究对象。然而在统计研究中,人们关心总体仅仅是关心其每个个体的一项(或几项)数量指标和该数量指标在总体中的分布情况. 这时,每个

15、个体具有的数量指标的全体就是总体. 参数:描述总体及其概率分布的数量值称为参数。,总体的性质,总体可以用一个随机变量及其分布来描述。 例如:研究某批灯泡的寿命时,关心的数量指标就是寿命,鉴于此,总体就可用随机变量X表示,或用其分布函数F(x)表示。,样本的性质,为样本是随机变量。容量为n的样本可以看作n维随机变量。但一旦取定一组样本,得到的是n个具体的数 (X1,X2,Xn),称为样本的一次观察值,简称样本值。,样本的性质,代表性:X1,X2,Xn中每个与所考察的总体有相同的分布 独立性: X1,X2,Xn是相互独立的随机变量。由简单随机抽样得到的样本称为简单随机样本,它可以用与总体独立同分布

16、的n个相互独立的随机变量X1,X2,Xn表示. 若总体的分布函数为F(x),则其简单随机样本的联合分布函数为F(x1) F(x2) F(xn)。简单随机样本是应用中最常见的情形,今后,当说到“X1,X2,Xn是取自某总体的样本”时,若不特别说明,就指简单随机样本.,样本的性质,简单样本是一组独立、同分布随机变量 举例(抽样的随机性): 从一批平均寿命为1000小时的灯泡中抽取一个样品,若干个样品构成总体的一个样本(随机变量):X1,X2,Xn.,总体、样本、样本值的关系,事实上我们抽样后得到的资料都是具体的、确定的值。如我们从某班大学生中抽取10人测量身高,得到10个数,它们是样本取到的值而不

17、是样本。我们只能观察到随机变量取的值而见不到随机变量。,样本统计量,样本统计量:设(X1,X2,Xn)是总体的一个样本,f(X1,X2,Xn)是不含任何参数的连续函数,则称f(X1,X2,Xn)为样本(X1,X2,Xn)的一个统计量。统计量的分布称为抽样分布。,常用的样本统计量,样本均值 :它反映了总体均值的信息 样本方差 : 样本K阶原点矩: 它反映了总体 K阶矩的信息 样本K阶中心矩:它反映了总体K阶中心矩的信息,样本统计量的概率分布 是一种理论概率分布 随机变量是 样本统计量 样本均值, 样本比例,样本方差等 结果来自容量相同的所有可能样本 提供了样本统计量长远我们稳定的信息,是进行推断

18、的理论基础,也是抽样推断科学性的重要依据,抽样分布 (sampling distribution),抽样分布 (sampling distribution),样本的概率分布,把某一抽样方法的全部可能的样本指标与其相应的概率排列起来,就得到样本的概率分布。,若将样本指标的取值分别记为 其相应的概率记为P1,P2,Pn,将它们按顺序排列起来,可得如下概率分布表。,5.3 样本统计量的抽样分布 (一个总体参数推断时),样本均值的抽样分布 样本比例的抽样分布 抽样方差的抽样分布,样本均值的抽样分布,容量相同的所有可能样本的样本均值的概率分布 一种理论概率分布 进行推断总体总体均值的理论基础,样本均值的

19、抽样分布,样本均值的抽样分布 (例题分析),【例】设一个总体,含有4个元素(个体) ,即总体单位数N=4。4 个个体分别为x1=1、x2=2、x3=3 、x4=4 。总体的均值、方差及分布如下,均值和方差,样本均值的抽样分布 (例题分析), 现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为,样本均值的抽样分布 (例题分析), 计算出各样本的均值,如下表。并给出样本均值的抽样分布,样本均值的分布与总体分布的比较 (例题分析), = 2.5 2 =1.25,总体分布,样本均值的抽样分布 与中心极限定理,当总体服从正态分布N(,2)时,来自该总体的所有容量为

20、n的样本的均值X也服从正态分布,X 的数学期望为,方差为2/n。即XN(,2/n),中心极限定理 (central limit theorem),中心极限定理:设从均值为,方差为 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布,抽样分布与总体分布的关系,样本均值的数学期望样本均值的方差 重复抽样不重复抽样,样本均值的抽样分布 (数学期望与方差),注意:有限总体校正系数!,由于实际工作中往往是从有限总体中做不重复的抽样,尽管抽取前后的元素不再相互独立,E(X)不受影响,E(X)=,但 受X之间是否相互独立的影响,如果Xi之间不相互独立

21、,计算需要用有限总体校正系数 修正,一般认为如果N/n10,不必校正。,实例,例:160件电子元件的重量的均值为5.02克,标准差为0.30克,从中采取不放回抽样抽取64件。 求P( 4.96 X 5.0),抽样误差的概念,由抽样引起的样本统计量与总体参数间的差异 两种表现形式 样本统计量与总体参数间的差异 样本统计量间的差异,抽样研究 个体变异,抽样误差产生的条件,均数的抽样误差及标准误,表现一:样本均数与总体均数之差值 表现二:多个样本均数间的离散度,从均数为、标准差为的总体中独立随机抽样,当样本含量n增加时,样本均数的分布将趋于正态分布,此分布的均数为,标准差为 :,标准误(standa

22、rd error,SE),,样本统计量的标准差称为标准误,用来衡量抽样误差的大小。 样本均数的标准差称为标准误。此标准误与个体变异 成正比,与样本含量n的平方根成反比。,实际工作中, 往往是未知的,一般可用样本标准差s代替 :因为标准差s随样本含量的增加而趋于稳定,故增加样本含量可以降低抽样误差。,均值的抽样标准误,所有可能的样本均值的标准差,测度所有样本均值的离散程度 小于总体标准差 计算公式为,样本比率的抽样分布,总体(或样本)中具有某种属性的单位与全部单位总数之比 不同性别的人与全部人数之比 合格品(或不合格品) 与全部产品总数之比 总体比例可表示为样本比例可表示为,比率(proport

23、ion),容量相同的所有可能样本的样本比例的概率分布 当样本容量很大时,样本比例的抽样分布可用正态分布近似 一种理论概率分布 推断总体总体比例的理论基础,样本比率的抽样分布,样本比率的抽样分布(实例),例:某地区经过长期调查计算,求得初生婴儿能活到75 岁的概率为45%,问在200个初生婴儿的样本中,活到 75岁者占50%以上的概率? 解:n=200, 200*0.5=100,远大于5,可以认为样本比率的分布是正态的,P(p0.5)= P(z(0.5-0.45)/0.0352)= P(z1.42)=0.0778,样本比率的数学期望样本比率的方差 重复抽样不重复抽样,样本比率的抽样分布 (数学期

24、望与方差),样本方差的抽样分布,样本方差的分布,设总体服从正态分布N (,2 ), X1,X2,Xn为来自该正态总体的简单随机样本,则样本方差 s2 的分布为,将2(n 1)称为自由度为(n-1)的卡方分布,c2 分布 (图示),例题:,5.4 样本统计量的抽样分布 (两个总体参数推断时),两个样本均值之差的抽样分布 两个样本比例之差的抽样分布 两个样本方差比的抽样分布,两个样本均值之差的抽样分布,两个总体均值之差的抽样分布 (12、22 已知),1. 假定条件 两个样本是独立的随机样本 两个总体都服从正态分布 若不是正态分布, 可以用正态分布来近似(n130和n230) 两个独立样本均值之差

25、的抽样分布服从正态分布,其期望值为,两个样本均值之差的抽样分布,两个样本均值之差的抽样分布(实例),例:求总体N(20,3)容量分别为10,15的两个独立样本的均值之差的绝对值大于0.3的概率。,两个样本比率之差的抽样分布,两个总体都服从二项分布 分别从两个总体中抽取容量为n1和n2的独立样本,当两个样本都为大样本时,两个样本比例之差的抽样分布可用正态分布来近似 分布的数学期望为方差为各自的方差之和,两个样本比率之差的抽样分布,两个样本方差比的抽样分布,两个样本方差比的抽样分布,两个总体都为正态分布,即X1N(1,12)的一个样本, Y1,Y2, ,Yn2是来自正态总体X2N(2,22 ) 从两个总体中分别抽取容量为n1和n2的独立样本 两个样本方差比的抽样分布,服从分子自由度为(n1-1),分母自由度为(n2-1) F分布,即,由统计学家费舍(R.A.Fisher) 提出的,以其姓氏的第一个字母来命名则 设若X为服从自由度为n1的2分布,即X2(n1),Y为服从自由度为n2的2分布,即Y2(n2),且X和Y相互独立,则称F为服从自由度n1和n2的F分布,记为,F 分布 (F distribution),F分布 (图示), 不同自由度的F分布,本章小结,总体分布、样本分布、抽样分布 单总体参数推断时样本统计量的分布 双总体参数推断时样本统计量的分布,结 束,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 高等教育 > 统计学

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报