1、第四章 抽样分布,主要教学内容 第一节 抽样的概念与方法 第二节 简单随机样本的抽样分布 第三节 抽样其他组织形式及其分布特征,教学基本要求,通过本章的学习,掌握抽样的概念,简单随机抽样的方法;掌握重置抽样的抽样分布,不重置抽样的抽样分布;识记抽样其他组织形式,抽样设计的基本原则,掌握各种抽样组织形式的抽样平均误差的计算方法,了解抽样方案的设计内容。,The purpose of Statistics inference is to obtain information about a population from information contained in sample. 例1:一汽
2、车轮胎制造商生产一种被认为寿命更长的新型轮胎。例2:某党派想支持某一候选人参选美国某州议员,为了决定是否支持该候选人,该党派领导需要估计支持该候选人的民众占全部登记投票人总数的比例。由于时间及财力的限制:,抽样估计方法主要用在下列两种情况: 1、对所考查的总体不可能进行全部测度; 2、从理论上说可以对所考查的总体进行全部测度,但实践上由于人力、财力、时间等方面的原因,无法或没有必要(不划算)进行全部测度。 注意: 抽样调查必须遵循随机原则。 抽样估计只能得到对总体特征的近似测度,因此,抽样估计还必须同时考察所得结果的“可能范围”与“可靠程度”。,第一节 抽样推断的基本概念与点估计,例3:某大公
3、司人事部经理整理其2500个中层干部的档案。其中一项内容是考察这些中层干部的平均年薪及参加过公司培训计划的比例。 总体:2500名中层干部(population ),如果:上述情况可由每个人的个人档案中得知,可容易地测出这2500名中层干部的平均年薪及标准差。假如:1:已经得到了如下的结果:总体均值(population mean) =51800总体标准差(Population standard deviation) =4000,2、同时,有1500人参加了公司培训,则参加公司培训计划的比例为:P =1500/2500=0.60参数是总体的数值特征(A parameter is a numer
4、ical characteristic of a population.)。如:例3中的中层干部平均年薪,年薪标准差及受培训人数所占比例均为该公司中层干部这一总体的参数。抽样估计就是要通过样本而非总体来估计总体参数。,假如从中抽取30名,得到样本的平均数、标准差和成数是 则,样本:抽取到的30名中层干部。 统计量:根据样本分布计算的综合指标,是样本变量的函数。 另注意区分样本容量和样本个数: 样本容量是指一个样本所包含的单位数。 样本个数是指样本的可能数目。,一、简单随机抽样(Simple Random Sampling)简单随机抽样可根据总体的有限性或无限性分为有限总体简单随机抽样与无限总体
5、随机抽样。有限总体简单随机抽样的特点:每一个可能的相同容量的样本被抽中的概率相同。无限总体简单随机抽样的特点:1、每一样本(单位)来自同一总体;2、每一样本(单位)是独立抽取的。在有限总体的简单随机抽样中,由抽样是否具有可重复性,又可分为重复(重置)抽样与不重复(不重置)抽样。而且,根据抽样中是否排序,所能抽到的样本个数往往不同。在总体单位数为N的总体中抽取容量为n的样本,样本个数可能有:,注意:,在有限总体的简单随机抽样中,由抽样是否具有可重复性,又可分为重复(重置)抽样与不重复(不重置)抽样。而且,根据抽样中是否排序,所能抽到的样本个数往往不同。在总体单位数为N的总体中抽取容量为n的样本,
6、样本个数可能有:,1、考虑顺序的不重复抽样:N(N-1)(N-2)(N-n+1)在社会经济统计中,往往采用的是较大总体(视为无限总体)下的无序不重复抽样。,第二节 简单随机样本的抽样分布,在上节某公司30个中层干部的简单随机抽样中,如果再一次抽样的样本与前一次的不同,则可得到另外的平均年薪样本均值、标准差以及受训干部的比例。同样地,如果多次抽样,则可得到多个不同的结果。表4.1是一个假设的经过500次抽样后的情况表。 Table 4.1 Value of , s, p from 500 Simple Random Samples of 30 ManagersSample Sample Samp
7、le Standard SampleNumber Mean Deviation s Proportion p1 51814.00 3347.72 0.632 52669.70 4239.07 0.703 51780.30 4433.43 0.67 500 51752.00 3857.82 0.50,表4.2给出了500个 的频数分布与相对频数分布,图4.1是其相对频数分布图。 Table 4.2 Frequency Distribution of from 500 Simple Random Samples of 30 Managers Mean Annual Salary Frequency
8、 Relative Frequency49500.0049999.99 2 0.00450000.0050499.99 16 0.03250500.0050999.99 52 0.10451000.0051499.99 101 0.20251500.0051999.99 133 0.26652000.0052499.99 110 0.22052500.0052999.99 54 0.10853000.0053499.99 26 0.05253500.0053999.99 6 0.012Totals 500 1.000,图4.1 500个 的相对频数分布显然,不同的样本对应着不同的样本统计量,而
9、由于样本抽取的随机性,样本统计量即为一种随机变量。一般地,样本统计量的可能取值及其取值概率,形成其概率分布,统计上称为抽样分布(sampling distribution)。正是抽样分布及其特征使得用样本统计量估计总体参数的“精确程度”能够给予概率上的描述。,由于样本统计量的随机性及其抽样分布的存在,同样可计算其均值、方差、标准差等数字特征来反映该分布的中心趋势和离散趋势。(一)样本平均数的抽样分布(Sampling Distribution of )The sampling distribution of is the probability distribution of all poss
10、ible values of the sample mean . 1、样本平均数的期望值(Expected Value of ) 由于不同的样本可得到不同的样本均值,因此,考察样本均值的期望就显得非常重要。用 表示样本均值的期望值, 表示总体均值,可证明在简单随机抽样中,不论是重置抽样还是不重置抽样。例3中,中层干部年薪的总体均值为51800,因此所有可能的样本平均数的均值也为51800。,2、样本平均数的标准差(Standard Deviation of ) n=样本容量; N=总体单位个数 则,样本均值标准差随总体抽样方法和是否有限有所不同:上式中, 称为有限总体修正因子(finite p
11、opulation correction factor)。显然,如果总体单位数很“大”而样本容量很“小”,则该修正因子趋近于1,这时,对有限总体可直接按无限总体的公式去计算。一个经验的衡量标准是n/N=0.05。例3中,由于样本容量与总体单位数的比值为n/N=30/2500=0.012,因此样本均值的标准差可计算如下:样本均值的标准差可用来测度样本均值与总体均值的“距离”,即可用来计算可能的误差,它也被称为均值标准误(standard error of the mean)。,(二)样本比例的抽样分布(Sampling Distribution of p)在经济与商务的许多场合,需要用样本比例p
12、对总体比例P进行统计推断。样本比例的抽样分布是样本比例所有可能值的概率分布。The sampling distribution of p is the probability distribution of all possible values of the sample proportion p.同样地,要考察样本比例p与总体比例P的接近程度,需要有样本比例抽样分布的相关信息:p的期望值、标准差及抽样分布形状。1、期望值(Expected value of p): E (p)=P2、标准差(Standard deviation of p):,3、样本比例抽样分布的形状(Form of th
13、e sampling distribution of p)根据中心极限定理有:当样本容量增大时(大样本),样本比例抽样分布趋向于以样本期望值为中心、以样本方差为方差的正态分布。 经验上,当下面两个条件满足时,与p相关的样本为大样本:np=5 n(1-p)=5在例3中,由于全体中层干部接受过培训的人数比例为P=0.6,因此样本比例期望值为p=0.6;同时,由于n/N=30/2500=0.012=0.05,因此样本标准差为=0.089;同样地,在n=30, p=0.6的情况下,np=18, n(1-p)=12,因此 样本比例抽样分布可近似地看成如下正态分布:,三、正态分布,1、正态分布的密度函数式
14、中 为正态分布的平均数, 是它的标准差。这两个参数决定正态分布密度函数的形状。也可简记为N 正态分布密度函数有如下特性: (1)对称性。 (2)非负性。 (3)当x处于中心位置是,密度函数值最大。 (4)在处为密度函数的拐点,越大图形越扁平。 (5)当x 时,密度函数f(x) 0,即曲线向两边下垂,伸向无穷远处。,2、正态分布标准化,正态分布函数为:但不同的正态分布参数也就有不同的正态分布形式,利用上式分 布函数计算各类不同的正态分布形式某点或某区间的概率是很困 难的。必须对各种正态分布加以标准化,才能求其概率,标准化 要求平均数为0,方差为1。即是原变量变为新变量:,例4:某农场的小麦亩产量
15、服从正态分布,已知平均亩产为550公斤,标准差50公斤,求亩产在525575公斤间所占的比例。,例5:解放军战士的身高是按正态分布,经抽查平均身高175公分,标准差是4公分,现军服厂要裁制100,000套军服,问身高在171179公分之间要裁多少套?,考察样本均值的分布特征最后还需要考察样本均值的概率分布形式。分两种情况:一是总体分布未知,二是总体分布已知,且为正态分布。 1、正态分布再生定理 当总体分布已知且为正态分布或接近正态分布时,则无论样本容量大小如何,样本均值都为正态分布。2、中心极限定理(Central limit Theorem)当总体分布未知时,需要用到中心极限定理:对容量为n
16、 的简单随机样本,样本均值的分布随样本容量的增大而趋于正态分布。经验上验证,当样本容量等于或大于30时,无论总体的分布如何,样本均值的分布则非常接近正态分布。因此统计上常称容量在30(含30)以上的样本为大样本(large-sample-size)。 。,四、正态分布定理,关于正态分布查表的基本方法:f(z) f(z) f(z)z z z -0.5 0 0.5 -0.5 0.5P(-0.5x 0.5)=0.3829 P(x-0.5)=(1-0.3829)/2=0.5-0.3829/2=0.30855 P(x0.5)=0.30855 P (x0.5)=1-0.30855=0.69145,五、样本
17、容量与样本均值分布的关系由于样本标准差与总体标准差及样本容量有关:因此,样本容量增大,样本均值标准差变小,从而使样本分布峰度变高,于是在相同区间内,概率分布线下的面积变大,提高了样本均值落在该区间的可能性。注意:1、所有可能的样本均值的平均数等于总体均值,而与样本容量无关。2、点估计往往是在总体方差已知的情况下进行的。,六、点估计量的性质:估计量优劣的衡量用样本统计量(sample statistics)可以作为其对应的总体的点估计量(point estimator)。但要估计总体的某一指标,并非只能用一个样本指标,而可能有多个指标可供选择,即对同一总体参数,可能会有不同的估计量。然而,作为一
18、个好的点估计量,统计量必须具有如下性质:1、无偏性(Unbiasedness):样本估计量的均值等于被估总体参数的真值;2、有效性(Efficiency):好的点估计量应具有较小的方差;3、一致性(Consistency):当样本容量增大时,估计量依概率收敛于总体参数的真值。可以证明:样本均值与样本比例:无偏、有效、一致;样本标准差:无偏、有效、一致;样本二阶中心矩:不具有无偏性。,第三节 抽样设计,一、抽样设计的基本原则 (一)保证随机原则的实现 (二)考虑样本容量和结构问题 (三)关于抽样的组织形式问题 (四)必须重视调查费用这个基本因素 二、抽样的组织设计 (一)简单随机抽样1、自有限总
19、体的抽样方法:将总体单位编成抽样框,而后用抽签或随机数表抽取样本单位。适用:总体规模不大;总体内部差异小。2、自无限总体的抽样方法:必须特殊制定一种独立选取样本点的抽样过程,以避免由于某些类型的个体以较大概率被选入而产生误差。适用:总体太大或是无限的;总体内部差异小。,二、抽样的组织设计,(一)简单随机抽样1、自有限总体的抽样方法:将总体单位编成抽样框,而后用抽签或随机数表抽取样本单位。适用:总体规模不大;总体内部差异小。2、自无限总体的抽样方法:必须特殊制定一种独立选取样本点的抽样过程,以避免由于某些类型的个体以较大概率被选入而产生误差。适用:总体太大或是无限的;总体内部差异小。,随机数字表
20、(摘录),63271 59986 71744 51102 15141 80714 58683 93108 13554 79945 88547 09896 95436 79115 08303 01041 20030 63754 08459 28364 55957 57243 83865 09911 19761 66355 40102 26646 60147 15702 46276 87453 44790 67122 45573 84358 21625 16999 13385 22782 55363 07449 34835 15290 76616 67191 12777 21861 68689 0
21、3263 69393 92785 49902 58447 42048 30378 87618 26933 40640 16281 13186 29431 88190 04588 38733 81290 89541 70290 40113 08243 17726 28652 56836 78351 47327 18518 92222 55201 27340 10493 36520 64465 05550 30157 82242 29520 69753 72602 23756 54935 81628 36100 39254 56835 37636 02421 98063 89641 64953 9
22、9337 随机数字表中,可以从任何一个位置、任何方向开始挑选随机数。一旦选择一个任意起点,就采用事先确定的程序。,(二)类型抽样(分层抽样或分类抽样) 1、方法:将总体全部单位分类,形成若干个类型组,后从各类型中分别抽取样本单位,合成样本。,总体,层1,层2,层, ,2、类型抽样的特点:,根据方差定理: 总方差=组内方差的平均数+组间方差 在划分类型后,类型抽样实际是对每组都抽去了一个样本,如果各组内的抽样误差都为0,那么不论各组之间差异如何,整个样本的方差就等于总方差(总方差=组间方差),也就是说抽取得到的样本分布完全和总体分布一样,也就不存在抽样误差。 所以说,类型抽样总的抽样误差主要取决
23、于各组内的抽样误差。,3、类型抽样平均误差的计算,设总体有N个单位组成,把总体分为k组,然后从每组中抽取样本单位构成样本总体。怎样从每类中抽取呢?通常是等比例抽样。,(三)等距抽样(机械抽样或系统抽样),1、方法:将总体单位按某一标志排序,而后按一定的间隔抽取样本单位。设总体有N个单位组成,现在抽取一个容量为n的样本,现将总体N个单位按标志排队,然后将N划分为n个单位相等部分,每部分包含k个单位,(Nnk),然后在每部分中抽取一个单位。 按排队标志性质的不同,可分为有关标志排队等距抽样和无关标志排队等距抽样。,按有关标志排队的抽取方法: ()半距中点取样1 2 3 4 n ()对称等距抽样或1
24、 2 3 4 n 按无关标志排队的抽取方法: ()任意起点抽样1 2 3 4 n,1、方法,2、等距抽样平均误差的计算,关于等距抽样的平均误差,它和标志排列顺序有关, 情况比较复杂。如果用来排队的标志是无关标志, 而且是随机起点抽样,那么它的抽样误差就十分 接近简单随机抽样的误差,为了简便起见,可以 采用简单随机抽样误差公式来近似计算即:,(四)整群抽样(集团抽样),1、方法: 将总体全部单位分为许多个“群”,然后随机抽取若干“群”,对被抽中的各“群”内的所有单位登记调查。,总体,群1,群2,群, ,2、整群抽样的特点:,根据方差定理: 总方差=组内方差的平均数+组间方差 在分群后,整群抽样实
25、际是对中选群进行全面调查,其样本的代表性取决于抽中的群体对总体的代表性每组。如果各群体之间没有差异(即组间方差=0),群内方差就等于总方差(总方差=组内方差),则样本能完全代替总体,也就不存在抽样误差。 所以说,整群抽样总的抽样误差主要取决于各群间的抽样误差或群间差异程度。,3、整群抽样平均抽样误差计算公式: 设总体全部单位划分为群每群包含单位则现在从总体群中随机抽取群组成样本,并分别对中选群的所有单位进行调查,(五)阶段抽样,1、方法:是指在抽样时先抽总体中某种更大范围的单位,再从中选大单位中较小的单位,逐次类推,最后从更小的单位中抽选样本的基本单位,分阶段来完成抽样的组织工作。例在某省10
26、0多万农户抽取1000户调查农户生产性投资情况。 第一阶段:从省内部县中抽取5个县 第二阶段:从抽中的5个县中各抽4个乡 第三阶段:从抽中的20个乡中各抽5个村 第四阶段:从抽中的100个村中各抽10户 样本n=10010=1000(户),(六)样本容量的确定,样本容量对估计精度有较大的影响,从理论上说,样本容量越大,对总体特征的估计误差越小;但从实践角度看,抽样数目过大,则会增大调查及相关的工作量。因此,样本容量的确定是至关重要的。 1、 影响必要样本容量的因素第一,总体各单位标志变异程度第二,允许的极限误差的大小第三,抽样的方法第四,抽样方式第五,抽样推断的可靠程度,2、 计算公式,(1)
27、重置抽样必要样本容量的确定(2)不重置抽样必要样本容量的确定,3、计算必要样本容量应注意的问题,(1)上面公式计算的样本容量是最低的,也是最必要的样本容量。 (2)上面计算公式计算的样本容量时,一般总体方差时未知的,需要用前面实验(总体)数据、样本资料来代替,一般要选择大的方差,如是成数,可以用0.25来代替。 (3)如果进行一次抽样调查,同时对总体平均数和总体方差进行区间估计,运用上式计算两个样本容量,一般情况下选择大的 (4)计算结果如是小数,不能采用四舍五入。,例6:某药厂为了检查瓶装药品数量,从成品库随机抽检100瓶,结果平每瓶101.5片,标准差为3片。是以F(t )=99.73%的把握成都推断成品库该种药平均每瓶数量的置信区间,如果允许误差减少到原来12,其他条件不变,问需要抽取多少瓶?,解:由已知可得n=100 F(t)=99.73% t=3,练习3:某冷库对储藏一批禽蛋的变质率进行调查,根据以往的资料,禽蛋的变质率分别为53、49、48,现在允许误差不超过5,推断的概率保证程度为95,问至少要抽取多少禽蛋进行检查?,作业,课本109页:5.2 ,5.7,5.8110页:5.9,5.10,5.11,,