收藏 分享(赏)

统计学 抽样与抽样分布.ppt

上传人:weiwoduzun 文档编号:4663490 上传时间:2019-01-06 格式:PPT 页数:71 大小:1.05MB
下载 相关 举报
统计学 抽样与抽样分布.ppt_第1页
第1页 / 共71页
统计学 抽样与抽样分布.ppt_第2页
第2页 / 共71页
统计学 抽样与抽样分布.ppt_第3页
第3页 / 共71页
统计学 抽样与抽样分布.ppt_第4页
第4页 / 共71页
统计学 抽样与抽样分布.ppt_第5页
第5页 / 共71页
点击查看更多>>
资源描述

1、1,第四章 抽样与抽样分布(新),4.1 抽样的基础知识 4.2 抽样分布 4.3 中心极限定理的应用,2,4.1 抽样的基础知识,一、 几个概念 二、抽样误差 三、常用的抽样方法,3,一、几个概念,(一)全及总体与总体指标 全及总体。简称总体(Population),是指所要研究的对象的全体,它是由所研究范围内具有某种共同性质的全部单位所组成的集合体。总体单位总数用N表示。(举例) 总体指标(参数)。在抽样估计中,用来反映总体数量特征的指标称为总体指标,也叫总体参数。 研究目的一经确定,总体也唯一地确定了,所以总体指标的数值是客观存在的、确定的,但又是未知的,需要用样本资料去估计。,4,通常

2、所要估计的总体指标有:,变量总体 总体平均数 (或记为) 总体标准差或方差 总体标志总量 (N ),属性总体 总体比率(成数)P(或 ) 总体比率标准差P或方差P 总体中具有某一属性的单位总数(NP)等。,5,一、 几个概念,(二)样本总体与样本指标 样本总体。简称样本(Sample),它是按照随机原则,从总体中抽取的部分总体单位的集合体 。 样本容量:样本中所包含的个体的数量,一般用n表示。在实际工作中,人们通常把n30的样本称为大样本,而把n30的样本称为小样本。 对于某一既定的总体,由于抽样的方式方法不同,样本容量也可大可小,因而,样本是不确定的、而是可变的。,6,一、 几个概念,(二)

3、样本总体与样本指标样本指标(统计量)。在抽样估计中,用来反映样本总体数量特征的指标称为样本指标,也称为样本统计量或估计量,是根据样本资料计算的、用以估计或推断相应总体指标的综合指标。,7,常见的样本统计量有:,变量总体: 样本平均数 样本标准差S或样本方差S样本统计量不含未知参数,它是随样本不同而不同的随机变量。,属性总体: 样本比率(也称样本成数)p 样本比率标准差p或方差p,二、 抽样误差,(一)抽样误差的概念 抽样误差是统计调查误差的一种形式。 统计调查误差,是指调查所得结果与总体真实数值之间的差异。在抽样调查中,误差的来源有两大类:登记性误差。是任何一种统计调查都可能产生.代表性误差

4、系统性误差 随机误差,9,二、抽样误差,系统性误差,是由于非随机因素引起的样本代表性不足而产生的误差,表现为样本估计量的值系统性偏高或偏低,故也称偏差;随机误差:又称偶然性误差,是指遵循随机原则抽样,但由于样本各单位的结构不足以代表总体各单位的结构而引起的样本估计量与总体参数之间的误差。这就是抽样估计中所谓的抽样误差 。,10,二、抽样误差,实际应用中,有三个密切联系而又相互区别的抽样误差的概念实际抽样误差抽样平均误差抽样极限误差,11,二、抽样误差,(二)抽样平均误差(抽样标准误)抽样平均误差是反映抽样误差一般水平的指标(因为抽样误差是一个随机变量,它的数值随着可能抽取的样本不同而或大或小,

5、为了总的衡量样本代表性的高低,就需要计算抽样误差的一般水平)。通常用样本估计量的标准差来反映所有可能样本估计值与其中心值的平均离散程度。,12,二、抽样误差,(二)抽样平均误差,抽样平均误差可衡量样本对总体的代表性大小。即:抽样平均误越小,则样本估计量的分布就越集中在总体参数的附近,平均来说,样本估计值与总体参数之间的抽样误差越小,样本对总体的代表性越大。,13,抽样平均误的计算公式,在总体方差 已知,总体单位总数为N,样本容量为n,简单随机抽样条件下,抽样平均误的计算公式为:重复抽样 不重复抽样估计均值估计成数,总结影响抽样误差大小的四因素。,14,二、抽样误差,(三)抽样极限误差 抽样极限

6、误差是指一定概率下抽样误差的可能范围,也称为允许误差。用表示,由定义知其表达式: 在一定概率下, 上式表示,在一定概率下可认为样本估计量与相应的总体参数的误差的绝对值不超过 。,15,抽样极限误差,用 、 分别表示平均数和比率(成数)的抽样极限误差,则在一定概率下有:估计均值的置信区间:估计成数(比例)的置信区间:,16,对抽样极限误差的解释:,抽样极限误差是抽样误差的可能范围,而不是完全肯定的范围。所以,这一可能范围的大小是与其估计的可靠程度的大小(即概率)紧密联系的。在抽样估计中,这个概率叫置信度,习惯上也称为可靠程度、把握程度或概率保证程度等,用1-表示。显然在其他条件不变的情况下,抽样

7、极限误差越大,相应的置信度也就越大。,17,抽样误差率:,与抽样极限误差相关的两个概念是: 抽样误差率和抽样估计精度 抽样误差率=(抽样极限误差/估计量)100% 抽样估计精度=100%-抽样误差率,18,估计精度(准确性)与可靠程度的关系:,估计精度与估计的可靠程度是矛盾的。也就是说,如果精度很高,则会由于估计区间太窄而使错误估计的可能性大增,从而大大降低估计的可靠程度,使估计结果没有多大的作用;如果置信度很高,则意味着允许误差范围较大,而使估计精度太低 ,这时尽管估计的可靠程度接近或等于100%,但抽样估计本身也会失去意义。 实际中,只能依据具体情况,先满足一方面,然后确定另一方面。,19

8、,三、抽样方法,在实际应用中,抽样方法主要有两种 概率抽样非概率抽样1、概率抽样也叫随机抽样,是指按随机原则抽取样本。所谓随机原则,就是排除主观意识的干扰,使总体的每一个单位都有一定的概率被抽选为样本单位,每个单位能否入选是随机的。 概率抽样最基本的组织形式有:简单随机抽样、分层抽样、等距抽样和整群抽样。,20,三、抽样方法,1、概率抽样 特点:概率抽样能有效地避免主观选样带来的倾向性误差(系统偏差),使得抽样估计和推断得以建立在概率论和数理统计的科学理论之上。从而使样本资料一方面能够用于估计和推断总体的数量特征; 另一方面可以计算和控制抽样误差,说明估计的可靠程度。2、非概率抽样也叫非随机抽

9、样,是指从研究目的出发,根据调查者的经验或判断,从总体中有意识地抽取若干单位构成样本。,21,三、抽样方法,由于一般的抽样推断都是建立在概率抽样的基础上,因此,主要介绍四种常见的抽样组织形式。 简单随机抽样 类型抽样 等距抽样 整群抽样,22,(一)简单随机抽样,简单随机抽样又称纯随机抽样,它是对总体单位不进行任何划分或排队,完全随机地直接从总体中抽取样本单位,使每个总体单位都有完全均等的机会被抽中。纯随机抽样常采用的抽选方法有抽签法、利用随机数表取数法和电子计算机取数法。它只需对总体单位进行编号,而不需要事先掌握更多的总体信息。,23,(一)简单随机抽样,纯随机抽样有两种抽取单位的具体方法,

10、即: 重复抽样,又称回置抽样,是指从总体的N个单位中,每次抽取一个单位后,再将其放回总体中参加下一次抽选,这样连续抽n次,即得到一个样本。 其特点是:样本是由n次相互独立的连续试验构成的,每次试验是在完全相同的条件下进行,每个单位中选的机会在各次都完全相等。 “重抽”(考虑顺序)可能的样本数目(从总体中可能抽取的样本个数,用M表示)为:Nn个。 不重复抽样,也叫不回置抽样,是指抽中的单位不再放回总体中,下一个样本单位只能从余下的总体单位中抽取。 其特点是:样本由n次连续抽取的结果构成,实际上等于一次同时从总体中抽取n个样本单位。 可能的样本数目(考虑顺序): N(N-1)(N-2)(N-n+1

11、)个。,24,(一)简单随机抽样,优缺点:纯随机抽样比较适用于总体单位数不多,总体单位标志值的差异不很大,或对抽样推断的要求不十分高的情况下使用。但由于纯随机抽样的估计效率比较低,进行大规模的抽样调查时,其组织工作也不宜开展,故大规模抽调常采用其他三种组织形式。,25,(二)分层抽样,分层抽样又称类型抽样或分类抽样。这种抽样方式是先对总体各单位按主要标志加以分组,然后再从各组中按随机原则抽选一定单位构成样本。如城市职工收入调查,可按行业将全部职工分类,再从各行业中分别抽取若干职工进行调查。 类型抽样总的抽样误差与组间差异无关,仅取决于各组内的抽样误差,而组内的抽样误差又取决于各组内的方差水平。

12、 所以,类型抽样应该尽可能扩大组间方差,缩小组内方差,这样就可以减少抽样误差,以提高抽样效果。,26,(二)分层抽样,分层抽样的优点: 1、不仅能对总体进行估计,而且也可对各层子总体进行估计。 2、能使抽样的组织和实施都比较方便。因为分层时可按自然区域或行政区域进行。 3、能使样本在总体中的分布比较均匀。因为类型抽样是对所有的层进行全面抽样。 4、估计精度高。因为分层抽样的误差只与组内方差有关,因此,若分类效果好,则可减少抽样误差。,27,(三)等距抽样,等距抽样也称机械抽样。它是先将总体所有单位按某一标志顺序排列,然后按相等的距离抽取样本单位。排列的标志可以是无关标志也可以是有关标志。 (1

13、)无关标志,指和单位标志值的大小无关或不起主要的影响作用。 (2)有关标志,指作为排队顺序的标志和单位标志值的大小有密切的关系。 其中,按有关标志顺序排队,并将样本单位加以n等份后,对每一部分抽取一个样本单位有两种方法 半距中点取样对称等距取样 应该指出的是,等距取样间隔的确定,要避免与想象中的周期性节奏重合,引起系统误差的影响。,28,(三)等距抽样,等距抽样的优点: 1、简便易行。相对于简单随机抽样而言。 2、误差相对而言,比简单随机抽样的要小。因为等距抽样的样本在总体中的分布一般比较均匀(针对有关标志排队而言)。,29,(四)整群抽样,整群抽样又称群体抽样。它是将总体各单位划分成许多群,

14、然后从中随机抽取部分群,并对中选群的所有单位进行全面调查。整群抽样实质上是以“群”代替单位之后的纯随机抽样。因此,整群抽样的抽样平均误差可以根据群间方差来推算。,30,(四)整群抽样,优点: 1、不需要有总体单位的具体名称,而群的名单比较容易得到。 2、整群抽样调查单位比较集中,故调查较方便,节省费用。 3、若群内各单位存在较大差异时,抽样推断效果较好。,31,4.2 抽样分布,一、 抽样分布的概念 二、 抽样分布的形式 三、 抽样分布的特征 四、 样本比率的抽样分布 五、 样本方差的抽样分布 六、 两个样本统计量的抽样分布,32,一、 抽样分布的概念,样本指标是一种随机变量,它有若干可能取值

15、,每个可能取值都有一定的可能性(即概率),从而形成它的概率分布,即统计上所谓的抽样分布。简言之,抽样分布就是指样本统计量的概率分布。 样本统计量是由n个随机变量构成的函数,故抽样分布属于随机变量函数的分布。,33,一、 抽样分布的概念,举例: 四名学生的月生活费支出(480,560,720,800 元)。现按不重复取样的方法,随机抽取两位构成一个样本,则全部可能的样本及其各样本的均值如下表所示:,34,序 样本变量 样本平均数 平均数离差 离差平方 x -E( ) -E( ) 1 480,560 520 -120 14400 2 480,720 600 -40 1600 3 480,800 6

16、40 0 0 4 560,480 520 -120 14400 5 560,720 640 0 0 6 560,800 680 40 1600 7 720,480 600 -40 1600 8 720,560 640 0 0 9 720,800 760 120 14400 10 800,480 640 0 0 11 800,560 680 40 1600 12 800,720 760 120 14400 合计 7680 0 64000,35,一、 抽样分布的概念(续),样本平均数的概率分布,36,一、 抽样分布的概念(续),例中总体分布和样本均值分布的比较:P( ),P(x),0,0,0.1,

17、0.1,0.2,0.2,0.3,0.3,480,560,720,800,X,520,600,640,680,760,图4.1 总体的分布,图4.2 样本均值的抽样分布,37,一、抽样分布的概念(续),通过图4.1总体分布和图4.2样本均值的抽样分布的比较,不难看出:尽管总体为均匀分布,但样本均值的抽样分布在形状上却是对称的。,38,一、 抽样分布的概念(续),抽样分布的形成过程可概括为图4.3:,总体N,样本容量为n 的所有样本,计算出每一个均值 并形成分布,f( ),的抽样分布,0,图4.3 抽样分布的形成过程,39,抽样分布反映了样本指标的分布特征,是抽样推断的重要依据。根据样本分布的规律

18、,可揭示样本指标与总体指标之间的关系,估计抽样误差,并说明抽样推断的可靠程度。,40,二、 抽样分布的形式,抽样分布的形式与原有总体的分布和样本容量n的大小有关。 (1)若总体的分布是正态分布,且方差已知,则无论样本容量是大是小,样本均值的抽样分布都服从正态分布。 (2)若总体的分布是非正态分布,则要看样本容量的大小。 当样本容量是大样本(通常n 30),无论原来的总体是否服从正态分布,样本均值的抽样分布都将趋于正态分布,其分布的数学期望为:总体均值 ;方差为总体方差的1/n,即: /n。 当n为小样本(通常n 30)时,其分布则不是正态分布,则不能按照正态分布进行推断。,41,二、 抽样分布

19、的形式(续),样本均值的抽样分布与总体分布的关系可概括为图4.4。,总体分布,正态分布,正态分布,正态分布,非正态分布,非正态分布,大样本,小样本,大样本,小样本,图4.4 样本均值的抽样分布与总体分布的关系,42,三、 抽样分布的特征,从统计推断的角度看,人们所关心的抽样分布的特征主要有均值和方差。而这两个特征又与以下两个问题有关:(1)总体分布的均值和方差; (2)样本的抽样方法(即重复抽样还是不重复抽样),43,三、 抽样分布的特征(续),假设一个总体,其单位总数为N,均值,方差为。从中抽取样本容量为n的样本,样本均值的数学期望为E( ),样本均值的方差为( )。对样本均值 的数学期望而

20、言,无论是重复抽样还是不重复抽样, E( )= 。对样本均值的方差 ( ) 而言,则与抽样方法有关。(前述抽样平均误已总结过),44,三、 抽样分布的特征(续),即:重复抽样下, 不重复抽样下, 说明:对于无限总体进行不重复抽样时,可按重复抽样计算;对于有限总体,当N很大而n很小时(一般而言,抽样比 n/N 5%),其修正系数 也趋近于1,所以也按重复计算即可。,45,四、 样本比率p的抽样分布,P的抽样分布是样本比率p的所有可能取值的概率分布。当样本容量很大时,样本比率的抽样分布近似于正态分布。对于一个具体的样本比率p,若np 5和n(1-p) 5,即可认为样本容量足够大。P的分布特征: (

21、1)p的数学期望E(p)等于总体比率 ,即: E(p)=,46,四、 样本比率p的抽样分布(续),(2)P的方差。(与抽样方法有关) 重复抽样,不重复抽样,,47,五、样本方差的抽样分布,用样本方差 去推断总体的方差 ,也必须知道样本方差的抽样分布。 在重复选取容量为n的样本时,由样本方差的所有可能取值形成的相对频数分布,称为样本方差的抽样分布。教材p100的样本方差 的抽样分布为:,48,五、 样本方差的抽样分布(续),统计证明,对于来自正态总体的简单随机样本,作为估计量的样本方差的分布是:比值 的抽样分布服从自由度为(n-1)的 分布,即:,49,五、样本方差的抽样分布(续),分布具有四个

22、特征 (教材p108)分布通常用于总体方差的估计和非参数检验。,50,样本统计量的抽样分布形式概括:,样本统计量,样本均值,样本比率p,样本方差,方差已知的正态总体 或非正态总体大样本,正态分布,方差未知的正态 总体(小样本),t分布,大样本,正态分布,分布,图4.5 样本统计量的抽样分布,51,六、两个样本统计量的抽样分布,52,问题的提出:,1、甲、乙两台机床同时加工某种同类型的零件,已知两机床加工的零件直径(单位:cm)分别服从正态分布 ,并且有 。为比较两台机床的加工精度有无显著性差异,分别独立抽取了甲机床的8个零件和乙机床的7个零件,通过测量得到的数据见表:两台机床加工零件的样本数据

23、 单位:cm在 的显著性水平下,样本数据是否提供证据支持“两台机床加工的零件直径不一致”的看法?,53,2、某饮料公司开发研制出一新产品,为比较消费者对新老产品口感的满意程度,该公司随机抽取一组消费者(8人),每个消费者先品尝一种饮料,然后再品尝另一种饮料,两种饮料的品尝顺序是随机的,然后每个消费者要对两种饮料分别进行评分(010分) ,评分结果如表所示:两种饮料平均等级的样本数据取显著性水平=0.05,该公司是否有证据认为消费者对两种饮料的评分存在显著性差异?,54,3、假定两个办事处纳税申报单的独立简单随机样本提供的资料如下表所示:纳税申报单中有错申报数要求:在显著性水平=0.01下,检验

24、两办事处纳税申报单的有错比例是否相等。,55,六、两个样本统计量的抽样分布,现实中,若对两个总体参数进行推断时,所关心的总体参数主要是:两个总体均值之差 ( ),两个总体比率之差 ( ),两个总体的方差比 。相应地,用于推断这些参数的统计量分别是:两个样本均值之差 两个样本比率之差 两个样本方差比,56,六、两个样本统计量的抽样分布(续),为此,需分别研究两个总体参数推断时样本统计量的抽样分布,包括:两个样本均值之差的抽样分布 两个样本比率之差的抽样分布 两个样本方差比的抽样分布,57,六、 两个样本统计量的抽样分布(续),1、两个样本均值之差的抽样分布从两个总体中分别独立地抽取容量为 的样本

25、,在重复选取容量为 的样本时,由两个样本均值之差的所有可能取值形成的相对频数分布,称为两个样本均值之差的抽样分布。,58,六、 两个样本统计量的抽样分布(续),当两个总体都为正态分布时,即 , 两个样本均值之差 的抽样分布服从正态分 布,即:,两种情况:一种是,59,对分布的解释:,这表明,两个样本均值之差的抽样分布,其均值是两个总体均值之差,即:抽样分布的方差 为各自样本均值分布的方差之和,即:,60,六、两个样本统计量的抽样分布(续),另一种情况是: 若两个总体为非正态分布,当 比较大时,即大样本,则两个样本均值之差的抽样分布仍然可以用正态分布来近似。,61,六、 两个样本统计量的抽样分布

26、(续),2、两个样本比率之差的抽样分布 从两个服从二项分布的总体中,分别独立地抽取容量为 的样本,在重复选取容量为 的样本时,由两个样本比率之差的所有可能取值形成的相对频数分布,称为两个样本比率之差的抽样分布。当两个样本均来自于服从二项分布的两个总体,且都为大样本,则两个样本比率之差的抽样分布可用正态分布来近似,其分布的均值和方差分别为:,62,六、两个样本统计量的抽样分布(续),即:,63,六、两个样本统计量的抽样分布(续),3、两个样本方差比的抽样分布 从两个总体中分别独立地抽取容量为 的样本,在重复选取容量为 的样本时,由两个样本方差比的所有可能取值形成的相对频数分布,称为两个样本方差比

27、的抽样分布。 设两个总体都为正态分布,分别从两个总体抽取样本容量为 的独立样本,则两个样本方差比 的抽样分布,服从F分布。,64,六、 两个样本统计量的抽样分布(续), F(n1-1,n2-1) 简单介绍一下F分布:设U是服从自由度为n1的 分布的随机变量,即:U (n1)V是服从自由度为n2的 分布的随机变量,即:V (n2) 且U和V相互独立,则:,65,六、两个样本统计量的抽样分布(续),称F为服从自由度 n1和n2 的F分布,记为FF(n1,n2) .由前述样本方差的抽样分布可知,样本方差的抽样分布是服从,66,六、两个样本统计量的抽样分布(续),即:两个独立的 分布除以自由度后,再相

28、比即得到F分布,即:,67,六、两个样本统计量的抽样分布(续),F分布的图形见教材p111. F分布的图形是右偏。该分布除了用于两个总体方差比的估计外,还广发应用于方差分析和回归分析中对方程的检验。,68,自由度:,自由度,是指可以自由取值的数据的个数,或者指不受任何约束、可以自由变动的变量的个数。 样本方差中的自由度为n-1,而S2的表达式中 是n个量的平方和,为何自由度为(n-1)呢?这是因为 (i=1,2,,n)这n个量并不能自由变化,而是受到一个约束条件,即:,69,自由度:,从而使它的自由度少了一个,即自由度为(n-1)。 这是因为当给定均值 时, x1 ,x2,xn这n个数据中,前

29、(n-1)个数据都可以自由取值,而第n个数据受到全部数据的平均数的制约,不能自由取值。第n个数据可由公式 求得。因此, S2的自由度为(n-1)。,70,4.3 中心极限定理的应用,中心极限定理是俄国数学家里亚普诺夫给出的。其思想是: 如果总体存在有限的平均数和方差,那么,不管总体是否属于正态分布,只要当抽样单位数不断增加(n 30),抽样平均数 的分布也就趋近于正态分布。 这个定理为抽样误差的估计提供了理论依据,使抽样估计有了科学基础。 在实际推断中,总体是什么分布通常是未知的。有了中心极限定理,我们就可以放心的利用大样本条件下,抽样平均数服从正态分布的性质进行各种统计推断。,71,THE WND,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 统计学

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报