1、第 4 章 抽样与抽样分布,4.1 常用的抽样方法4.2 抽样分布4.3 中心极限定理的应用,学习目标,了解抽样的概率抽样方法理解抽样分布的意义了解抽样分布的形成过程理解中心极限定理理解抽样分布的性质,4.1 常用的抽样方法,一、简单随机抽样二、分层抽样三、系统抽样四、整群抽样,抽样方法,概率抽样(probability sampling),根据一个已知的概率来抽取样本单位,也称随机抽样特点按一定的概率以随机原则抽取样本抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的,或是可以计算出来的 当用样本对总体目标量进行估计 时,要考虑到每个样本单位被抽 中的概率,简单随机抽样(s
2、imple random sampling),从总体N个单位中随机地抽取n个单位作为样本,使得每一个总体单位都有相同的机会(概率)被抽中 抽取元素的具体方法有重复抽样和不重复抽样特点简单、直观,在抽样框完整时,可直接从中抽取样本用样本统计量对目标量进行估计比较方便局限性当N很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难没有利用其他辅助信息以提高估计的效率,分层抽样(stratified sampling),将总体单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本优点:保证样本的结构与总体的结构比较相近,从而提高估计的精度组织实施调查方便既可以对总体参数进
3、行估计,也可以对各层的目标量进行估计,系统抽样(systematic sampling),将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k等单位优点:操作简便,可提高估计的精度缺点:对估计量方差的估计比较困难,整群抽样(cluster sampling),将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查特点抽样时只需群的抽样框,可简化工作量调查的地点相对集中,节省调查费用,方便调查的实施缺点是估计的
4、精度较差,4.2 抽样分布,一、抽样分布的概念二、样本均值抽样分布的形式三、样本均值抽样分布的特征四、样本比率的抽样分布五、样本方差的抽样分布六、两个样本统计量的抽样分布,总体中各元素的观察值所形成的分布 分布通常是未知的可以假定它服从某种分布,总体分布(population distribution),一个样本中各观察值的分布 也称经验分布 当样本容量n逐渐增大时,样本分布逐渐接近总体的分布,样本分布(sample distribution),样本统计量的概率分布,是一种理论分布在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布 随机变量是 样本统计量样本均值, 样本比例
5、,样本方差等结果来自容量相同的所有可能样本提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据,抽样分布的概念 (sampling distribution),抽样分布的形成过程 (sampling distribution),在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布一种理论概率分布推断总体均值的理论基础,样本均值的抽样分布,样本均值的抽样分布(例题分析),【例】设一个总体,含有4个元素(个体) ,即总体单位数N=4。4 个个体分别为x1=1,x2=2,x3=3,x4=4 。总体的均值、方差及分布如下,均值和方差,样本均值的抽样分布
6、 (例题分析), 现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为,样本均值的抽样分布 (例题分析), 计算出各样本的均值,如下表。并给出样本均值的抽样分布,样本均值的分布与总体分布的比较 (例题分析), = 2.5 2 =1.25,总体分布,样本均值的抽样分布与中心极限定理,当总体服从正态分布N(,2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x 的数学期望为,方差为2/n。即xN(,2/n),中心极限定理(central limit theorem),中心极限定理:设从均值为,方差为 2的一个任意总体中抽取容量为n的样本,当n充分大
7、时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布,中心极限定理 (central limit theorem),x 的分布趋于正态分布的过程,样本均值的数学期望样本均值的方差重复抽样不重复抽样,样本均值的抽样分布(数学期望与方差),样本均值的抽样分布(数学期望与方差),比较及结论:1. 样本均值的均值(数学期望) 等于总体均值 2. 样本均值的方差等于总体方差的1/n,例题,某公司有400人,平均工龄为10年,标准差为3年。随机抽出50名组成一个样本,试问样本中工作人员的平均工龄不低于9年的概率有多大? 解:这个公司的全体400名工作人员构成一个有限总体。N=400,10(年)3(
8、年),n=50。虽然不知道总体分布的形式,但是,由于样本容量n50为大样本,因此,由中心极限定理知道,样本均值的抽样分布近似为正态分布。样本均值的数学期望为样本均值的标准差为,例题,从而故即样本中工作人员的平均工龄不低于9年的概率为0.9941,抽样分布与总体分布的关系,总体分布,正态分布,非正态分布,大样本,小样本,正态分布,正态分布,非正态分布,四、样本比率的抽样分布,样本比率的抽样分布 在重复选取容量为n的样本时,由样本比率的所有可能取值形成的相对频数分布。 样本比率p的抽样分布是样本比率p的所有可能取值的概率分布。,四、样本比率的抽样分布,样本比率的数学期望:样本比率的方差: 重复抽样
9、: 不重复抽样:,四、样本比率的抽样分布,样本比率p的数学期望和方差的证明(重复抽样)证明 当从总体中抽取一个容量为n的样本时,样本中具有某种特征的单位数x服从二项分布,即有X B(n, )。且有 因而样本比率 也服从二项分布,且有:,四、样本比率的抽样分布,根据中心极限定理,当n ,二项分布趋近于正态分布。所以,在大样本情况下,若 和 皆大于5,样本比率近似服从正态分布:,四、样本比率的抽样分布,例:已知办公室人员所填写的表格中有5的表格存在笔误(即 0.05)。检查一个由475份表格组成的样本,试问有笔误的表格比率在0.03和0.075之间的概率有多大?解 因为 4750.0523.75大
10、于5,故我们可以认为p近似服从均值 0.05和方差 的正态分布于是有 P(0.03p0.075),五、样本方差的抽样分布,样本方差的抽样分布 在重复选取容量为n的样本时,由样本方差的所有可能取值形成的相对频数分布。 分布 设随机变量X1,X2, ,Xn独立同分布于N(0,1),则称 所服从的分布为自由度为n的 分布,记作 自由度n表示平方和 中独立随机变量项的个数。,五、样本方差的抽样分布,分布的具有的如下性质和特点: 1) 分布的变量值始终为正。 2) 分布的形状取决于其自由度n的大小,通常为不对称的右偏分布,但随着自由度的增大逐渐趋于对称。 3) 分布的数学期望为: 方差为: 4) 分布具
11、有可加性。设 和 ,且 与 独立,则,五、样本方差的抽样分布,样本方差的抽样分布 对来自正态总体的简单随机样本,则比值 的抽样分布服从自由度为(n1)的 分 布,即,六、两个样本方差比的抽样分布,两个样本方差比的抽样分布 从两个正态总体中分别独立地抽取容量为n1和n2地样本,在重复选取容量为n1和n2的样本时,由两个样本方差比的所有取值形成的相对频数分布。 设两个总体都为正态分布,即 和 ,分别从两个总体中抽取容量为n1和n2的独立样本,两个样本方差比 的抽样分布,服从F分布,即,六、两个样本方差比的抽样分布,F分布 设U是服从自由度为n1的 的分布的随机变量,即 ,V是服从自由度为n2的 的
12、分布的随机变量,即 ,且U和V相互独立,则 称F为服从自由度n1和n2的F分布,记为,例题,某类产品的抗拉强度服从正态分布,平均值为99.8公斤/平方厘米,标准差为5.48公斤/平方厘米,从这个总体抽出一个容量为12的样本,试问这一样本的平均值介于98.8公斤/平方厘米和100.9公斤/平方厘米之间的概率有多大?解 由题意,总体 ,n12。那么样本均值的抽样分布为 所求概率为,例题,即样本均值介于98.8公斤/平方厘米和100.9公斤/平方厘米之间的概率为0.4937。 设总体 , 是取自X的一个样本,试求 的分布; 解 ,即,例题, 由上面结论可得,例题,设 相互独立,且服从标准正态分布, 是算术平均值,则 服从什么样的分布? 设随机变量X和Y都服从标准正态分布并且相互独立,则 服从什么样的分布? 设 和 是两个样本均值,基于来自同一正态总体 的两个相互独立且容量相同的简单随机样本,则使 不大于0.05的最小样本容量n满足,