1、第5章 抽样与抽样分布,学习目标,理解随机试验和随机事件的概念,了解事件之间的关系; 理解概率的定义,掌握概率的运算法则; 理解随机变量和概率分布的概念; 掌握二项分布的主要特征及其应用; 掌握正态分布的主要特征及其应用; 了解随机抽样方法; 了解抽样分布的形成过程,理解抽样分布的意义,掌握抽样分布的性质; 理解大数定律和中心极限定理。,目录,抽样调查概述 抽样估计的原理 抽样分布 SPSS在概率论中的应用,5.1 抽样调查概述,抽样调查:按照一定的规则从总体中取出一部分单元组成一个样本,并收集样本的数据资料的过程,简称为抽样。 样本:按照一定的抽样规则从总体中抽取的一部分单位组成的集合。 根
2、据抽样的原则不同,抽样方法有随机抽样和非随机抽样两种。 随机抽样:根据一个已知的概率来抽取样本单位,也称随机抽样 非随机抽样:研究人员有意识地选取样本单位,样本单位的选取不是随机的。,随机抽样的特点: 按一定的概率以随机原则抽取样本; 抽取样本时,使每个单位都有一定的机会被抽中。 每个单位被抽中的概率是已知的,或是可以计算出来的; 当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率。,5.1.1 简单随机抽样,简单随机抽样:从总体N个单位中抽取n个单位作为样本时,使得每一个总体单位都有相同的机会(概率)被抽中 也称纯随机抽样 是抽样调查中应用最多的方法之一 也是最基本的抽样方法之
3、一,简单随机抽样抽取元素的具体方法有: 重复抽样:从总体中抽取一个单位并加以计量后,把这个单位放回到总体中再抽取第二个单位,直到抽取n个单位为止; 不重复抽样:一个单位被抽中后不再放回总体,然后再从所剩下的单位中抽取第二个单位,直到抽出n个单位为止。,特点: 简单、直观,在抽样框完整时,可直接从中抽取样本; 用样本统计量对目标量进行估计比较方便。 局限性: 当N很大时,不易构造抽样框; 抽出的单位很分散,给实施调查增加了困难; 没有利用其他辅助信息以提高估计的效率。,5.1.2 分层抽样,分层抽样:在抽样之前先将总体的单位按某种特征或某种规则划分为若干层(类),然后从不同的层中独立、随机地抽取
4、一定数量的单位组成一个样本,也称分类抽样(stratified sampling)。 在分层或分类时,应使层内各单位的差异尽可能小,而使层与层之间的差异尽可能大。,分层抽样的优点: 既可以对总体进行估计,也可以对各层的子总体进行估计; 抽样的组织和实施都比较方便; 分层抽样的样本分布在各个层内,从而使样本在总体中的分布比较均匀; 估计的精度高。,5.1.3 系统抽样,系统抽样:在抽样中先将总体各单位按某种顺序排列,并按某种规则在一定的范围内随机确定一个起点,然后每隔一定的间隔抽取一个单位,直到抽取n个单位为止,也称等距抽样或机械抽样。 从数字1到k之间随机抽取一个数字r作为初始单位,然后依次取
5、r+k,r+2k,r+(n-1)k 优点: 简便易行; 系统抽样的样本在总体中的分布一般比较均匀,由此抽样误差通常要小于简单随机抽样。 缺点:对估计量方差的估计比较困难。,5.1.4 整群抽样,整群抽样:调查时先将总体划分成若干群,然后再以群作为调查单位从中抽取部分群,进而对抽中的各个群中所包含的所有个体单位进行调查和观察。 特点: 抽样时只需群的抽样框,可简化工作量; 调查的地点相对集中,节省调查费用,方便调查的实施。 缺点:估计的精度较差。,5.2 抽样估计的原理,抽样估计:在抽样调查的基础上,利用样本的数据资料计算样本指标,以样本特征值对总体特征值做出具有一定可靠程度的估计和判断。 是由
6、部分推断总体的一种认识方法,建立在随机取样的基础上,主要运用不确定的概率估计方法(分布理论、大数定律、中心极限定理和抽样分布理论),其误差可以事先计算并加以控制。 其目的是用样本统计量来推断总体参数。,在简单随机重复抽样中,每次抽样都是独立的。 如果从总体N个单元中抽取容量为n的样本,随机变量Xi表示第i次抽样的结果,则Xi服从在总体N个单元上均匀取值的多项分布,所以 为独立同分布随机变量序列X1, X2, , Xn和的一个取值,其中,如果总体中具有性质的A单元的比率为,随机变量Yi=1表示第i次抽样取得的样本单元具有性质A,否则Yi=0,则Yi服从概率为的两点分布,所以np为独立同分布随机变
7、量序列Y1, Y2, , Yn和的一个取值,其中关于独立同分布随机变量和的概率分布,大数定律和中心极限定理给出了很好的解释。,5.2.1 抽样估计的基本理论,概率与概率分布 必然现象(确定性现象) 变化结果是事先可以确定的,一定的条件必然导致某一结果; 这种关系通常可以用公式或定律来表示。 随机现象(不确定现象) 在一定条件下可能发生也可能不发生的现象; 个别观察的结果完全是偶然的、随机会而定; 大量观察的结果会呈现出某种规律性(随机性中寓含着规律性) 统计规律性。,十五的夜晚能看见月亮?,十五的月亮比初十圆!,1. 随机试验,严格意义上的随机试验满足三个条件: 试验可以在系统条件下重复进行;
8、 试验的所有可能结果是明确可知的; 每次试验前不能肯定哪一个结果会出现。 广义的随机试验是指对随机现象的观察(或实验) 实际应用中多数试验不能同时满足上述条件,常常从广义角度来理解。,2. 随机事件,随机事件(简称事件):随机试验的某一个可能结果,常用大写英文字母A、B、 来表示。 基本事件(样本点):不可能再分成为两个或更多事件的事件。 复合事件:由简单事件组合而成的事件。 样本空间( ):基本事件的全体(全集)。,两个特例,必然事件:在一定条件下,每次试验都必然发生的事件。 只有样本空间 才是必然事件 不可能事件:在一定条件下,每次试验都必然不会发生的事件。 不可能事件是一个空集(),3.
9、 随机事件的概率,概率:用来度量随机事件发生可能性大小的数值。 必然事件的概率为1,表示为P ( )=1 不可能事件发生的可能性是零,P( )=0 随机事件A的概率介于0和1之间,0P(A) 1 概率的三种定义,给出了确定随机事件概率的三条途经。,概率的古典定义,前提:古典概型 定义(公式)【例】设有50件产品,其中有5件次品,现从这50件中任取2件,求抽到的两件产品均为合格品的概率是多少?抽到的两件产品均为次品的概率又是多少?,概率的统计定义,若在相同的条件下重复进行的n次试验中,事件A发生了m次,当试验次数 n 很大时,事件A发生频率m/n 稳定地在某一常数 p 上下波动,而且这种波动的幅
10、度一般会随着试验次数增加而缩小,则定义 p 为事件A发生的概率当n相当大时,可用事件发生的频率m/n作为其概率的一个近似值计算概率的统计方法(频率方法),【例】根据古典概率定义可算出,抛一枚质地均匀的硬币,出现正面与出现反面的概率都是0.5。历史上有很多人都曾经做过抛硬币试验。,【例】某地区几年来新生儿性别的统计资料如下表所示,由此可判断该地区新生儿为男婴的概率是多少?,主观概率,有些随机事件发生的可能性,既不能通过等可能事件个数来计算,也不能根据大量重复试验的频率来近似。 主观概率依据人们的主观判断而估计的随机事件发生的可能性大小。例如某经理认为新产品畅销的可能性是80 人们的经验、专业知识
11、、对事件发生的众多条件或影响因素的分析等等,都是确定主观概率的依据。,4. 概率的性质,非负性:对任意事件A,有 P(A)0 规范性:必然事件的概率为1,即: P()=1 可加性:若A与B互斥,则P ( AB ) = P ( A ) + P ( B ) 上述三条基本性质,也称为概率的三条公理。,概率的公理化定义,概率的以上三种定义,各有其特定的应用范围,也存在局限性,都缺乏严密性 古典定义要求试验的基本事件有限且具有等可能性 统计定义要求试验次数充分大,但试验次数究竟应该取多大、频率与概率有多么接近都没有确切说明 主观概率的确定又具有主观随意性 苏联数学家柯尔莫哥洛夫于1933年提出了概率的公
12、理化定义 通过规定应具备的基本性质来定义概率 公理化定义为概率论严谨的逻辑推理打下了坚实的基础,5. 条件概率,条件概率:在某些附加条件下计算的概率 在已知事件B已经发生的条件下A发生的条件概率P(A|B) 条件概率的一般公式:其中 P(B) 0。 乘法公式: P(AB) P(A)P(B|A) 或 P(AB) P(B)P(A|B),P(A|B)在B发生的所有可能结果中AB发生的概率。 即在样本空间中考虑的条件概率P(A|B),就变成在新的样本空间B中计算事件AB的概率问题了。,一旦事件B已发生,【例】某公司甲乙两厂生产同种产品。甲厂生产400件,其中一级品为280件;乙厂生产600件,其中一级
13、品有360件。若要从该厂的全部产品中任意抽取一件,试求:已知抽出产品为一级品的条件下该产品出自甲厂的概率;已知抽出产品出自甲厂的条件下该产品为一级品的概率。 解:设A“甲厂产品”,B“一级品”,则:P(A)0.4, P(B) 0.64,P(AB)0.28 所求概率为事件B发生条件下A发生的条件概率P(A|B)0.28/0.64 所求概率为事件A发生条件下B发生的条件概率P(B|A)0.28/0. 4,【例】对例3-1中的问题(从这50件中任取2件产品,可以看成是分两次抽取,每次只抽取一件,不放回抽样) 解:A1第一次抽到合格品A2第二次抽到合格品A1A2抽到两件产品均为合格品,6. 事件的独立
14、性,两个事件独立 一个事件的发生与否并不影响另一个事件发生的概率 P(A|B)P(A),或 P(B|A)P(B) 独立事件的乘法公式:P(AB) P(A)P(B) 推广到n个独立事件,有: P(A1An)P(A1)P(A2) P(An),7. 随机变量,随机变量表示随机试验结果的变量 取值是随机的,事先不能确定取哪一个值 一个取值对应随机试验的一个可能结果 用大写字母如X、Y、Z.来表示,具体取值则用相应的小写字母如x、y、z来表示 根据取值特点的不同,可分为: 离散型随机变量取值可以一一列举 连续型随机变量取值不能一一列举,8. 离散型随机变量的概率分布,X的概率分布X的有限个可能取值为xi
15、与其概率 pi(i=1,2,3,n)之间的对应关系 概率分布具有如下两个基本性质:pi0,i=1,2,n;,离散型概率分布的表示,概率函数:P(X= xi)= pi 分布列:分布图:,离散型随机变量的数字特征,数学期望:方差:性质:,伯努利试验,伯努利试验:每次试验有且仅有两种可能结果。 用“成功”代表所关心的结果,相反的结果为“失败”。 每次试验中“成功”的概率都是 p。 n重伯努利试验:将伯努利实验独立地重复进行n次。,二项分布,在n重伯努利试验中,“成功”的次数X服从参数为n、p的二项分布,记为 X B(n , p) 二项分布的概率函数:二项分布的数学期望和方差:n1时,二项分布就成了二
16、点分布(0-1分布)。,二项分布图形,p0.5时,二项分布是以均值为中心对称 p0.5时,二项分布总是非对称的 p0.5时峰值在中心的右侧,p=0.3,p=0.5,p=0.7,二项分布图示,9. 连续型随机变量的概率分布,连续型随机变量的概率分布只能表示为: 数学函数概率密度函数f (x)和分布函数F (x)图 形概率密度曲线和分布函数曲线 概率密度函数f (x)的函数值不是概率 连续型随机变量取某个特定值的概率等于0 只能计算随机变量落在一定区间内的概率 由x轴以上、概率密度曲线下方面积来表示,对任意的实数x,函数F(x)PXx为随机变量X的分布函数。 分布函数满足下述两个条件: 0F(x)
17、1; F(x)是一个单调非减的函数。,概率密度f (x) 的性质,概率密度函数f (x)为分布函数的导数。 概率密度函数满足下述两个条件: f(x)0; 注意,对任意x,f(x)的值并不是一个概率。,随机变量X落在区间a,b)上的概率:即轴上方,概率密度曲线下方,直线X=a和X=b之间的面积。,连续型随机变量X 的数字特征,数学期望:方差:性质:,正态分布,XN (, 2 ),其概率密度为:正态分布的均值和方差 均值 E(X) = 方差 D(X)= 2,正态曲线,正态曲线的主要特性: 关于x=对称的钟形曲线; 参数决定正态曲线的中心位置; 参数决定正态曲线的陡峭或扁平程度; 以X轴为渐近线,即
18、当x时,f(x)0。,标准正态分布,0、 1的正态分布,记为N (0, 1)。 其概率密度(x),分布函数(x) XN (, 2 ), 则 ZN (0,1 ) 若 ZN (0,1 ),则有: (-a)=1(a) P(| Z| a)2(a)1,标准化,【例】某厂生产的某种节能灯管的使用寿命服从正态分布,对某批产品测试的结果,平均使用寿命为1050小时,标准差为200小时。试求: 使用寿命在500小时以下的灯管占多大比例? 使用寿命在8501450小时的灯管占多大比例? 以均值为中心,95的灯管的使用寿命在什么范围内?,解: X使用寿命,XN (1050,2002 )95的灯管寿命在均值左右392
19、(即6581442)小时。,3原则,|X| 3 的概率很小,因此可认为正态随机变量的取值几乎全部集中在- 3,+ 3 区间内。 广泛应用: 产品质量控制 判断异常情况 ,z分布的分为点,对于给定的(01),称满足条件的点z为z分布上的分位点。 由z分布概率密度函数的对称性有【例】求z0.05和z0.95 。,正态分布最常用、最重要,大千世界中许多常见的随机现象服从或近似服从正态分布 例如:测量误差,同龄人的身高、体重,棉纱的抗拉强度,设备的使用寿命,农作物的产量 特点是 “中间多两头少” 由于正态分布特有的数学性质,正态分布在很多统计理论中都占有十分重要的地位 正态分布是许多概率分布的极限分布
20、 统计推断中许多重要的分布(如2分布、t分布、F分布)都是在正态分布的基础上推导出来的,10. 2分布,总体随机变量XN(,2) , 为该总体的个样本值的样本平均数x1, x2, , xn,则样本统计量是自由度为n-1的卡方分布,记作2(n-1) 。 注意: 2整个是一个符号,并不是的平方。,2分布的统计特性:,2分布的变量值始终为正; 2(n)分布的形状取决于其自由度n的大小,通常为不对称的右偏分布,但随着自由度的增大逐渐趋于对称; 2分布的期望为:E(2(n)=n,方差为: D(2(n)=2n。 2分布具有可加性。若U2(n1), V2(n2),则U+V2(n1+n2)。,不同自由度的2(
21、n)分布,对于给定的(01) ,称满足条件的点 为2(n)分布的分为点。,2分布分为点的求法: 对于n45的分为点可查表求得; 当n充分大(n45)时,近似地有其中z为标准正态分布上的分为点,例题分析,n=12, =0.05, 求n=12, =0.95, 求n=18, =0.95, 求 和 使得n=50, =0.05, 求,11. t分布,总体随机变量XN(,2),x1, x2, , xn为取自该总体的n个随机样本,当未知时,以样本方差s替代,则是自由度为n-1的t分布,记为t(n-1)。,t分布的统计特性:,t(n-1)分布具有对称性,且以t=0为对称轴,其随机变量取值范围为(-,) t(n
22、-1)分布期望值为0,方差为(n-1)/(n-3),即,t(n-1)分布的形状类似标准正态分布,但由于t(n-1)的方差大于1(当n3时,(n-1)/(n-3)1),所以t(n-1)分布比标准正态分布更分散。即t(n-1)的概率密度函数是中央部分较标准正态分布低,而两尾部分则较标准正态分布高。 当抽样数目n增大时,t(n-1) 的方差越来越接近1,同时t(n-1)分布的形状也越来越接近标准正态分布。理论上,当n时t(n-1)与标准正态分布完全一致。一般认为n30就说t(n-1)与标准正态分布非常接近。,对于给定的(045)时,近似地有,例题分析,n=9, =0.05, 求t0.05(9)n=9
23、, =0.95, 求t0.95(9)n=18, 求t0.025(18)及t0.975(18),使得P(t0.975(18)t t0.025(18)=0.95n=50, =0.05,求t0.05(50),12. F分布,设随机变量U2(n1),V2(n2) ,且U,V独立,则随机变量服从自由度为(n1,n2)的F分布,记为F(n1,n2)。 由定义可知,如果FF(n1,n2) ,则1/FF(n2,n1) 。,对于给定的(01) ,称满足的点F(n1,n2)为分布F(n1,n2)的分位点。 容易证明【例5.5】求F0.05(10,5)和F0.95(5,10) 。,二、大数定律与中心极限定理,大数定
24、律是阐述大量同类随机现象的平均结果稳定性的一系列定理的总称 独立同分布大数定律设X1, X2, , Xn是独立同分布的随机变量序列,且存在有限的数学期望E(Xi)(i=1,2,),则对任意小的正数, 有,该定律表明:当n充分大时,相互独立且服从同一分布的一系列随机变量取值的算术平均数,与其数学期望的偏差任意小的概率接近于1 。 该定律给出了平均值具有稳定性的科学描述,从而为使用样本均值去估计总体均值(数学期望)提供了理论依据。,伯努利大数定律,设m是n次独立重复试验中事件A发生的次数,p是每次试验中事件A发生的概率,则对任意的 0,有该定律表明,当重复试验次数n充分大时,事件A发生的频率m/n
25、依概率收敛于事件A发生的概率。 阐明了频率具有稳定性,提供了用频率估计概率的理论依据。,2. 中心极限定理,独立同分布的中心极限定理设X1, X2, 是独立同分布的随机变量序列,且存在有限的和方差2(i=1,2,),当n 时,,或,上述定理表明: 独立同分布的随机变量序列不管服从什么分布,其n项总和的分布趋近于正态分布。 可得出如下结论: 不论总体服从何种分布,只要其数学期望和方差存在,对这一总体进行重复抽样时,当样本量n充分大,就趋于正态分布。 该定理为均值的抽样推断奠定了理论基础。,例题分析,【例】有一测绘小组对甲乙两地之间的距离采用分段测量的方法进行了测量,将甲乙之间的距离分成为100段
26、。设每段测量值的误差(单位:cm)服从区间(1,1)上的均匀分布。试问:对甲乙两地之间距离的测量值的总误差绝对值超过10cm的概率是多少? 解:设 Xi第i段测量误差(i=1,2,),由于Xi服从均匀分布,E(Xi)0,D(Xi )21(1)2/12=1/3。根据上述中心极限定理,可得,总误差YXiN(0,100/3),棣莫佛拉普拉斯中心极限定理,设随机变量X服从二项分布B(n,p)的,那么当n 时,X服从均值为np、方差为 np(1-p) 的正态分布,即:该定理为用频率估计概率奠定了基础。,或:,为什么很多随机现象呈正态分布,自然界和社会经济中,很多现象可以视为众多独立随机变量之总和。例如:
27、 一个城市的居民生活用电总量是大量相互独立居民户用电量的总和。 炮弹射击的误差,也可以看作是很多因素引起的小误差之总和。 由中心极限定理可知,即使各单个随机变量的分布并不明确,但只要它们存在有限均值和方差,这个众多独立的随机变量之总和的分布就趋近于正态分布。,5.2.2 抽样估计的基本概念,总体参数:总体的数量特征,简称为参数,一般是未知的常数。 样本统计量:根据样本资料计算出来的,其值随着样本的不同而变化,是一个关于样本的随机变量。,抽样误差是指抽样估计的过程中要重点控制的对象,主要分为三种: 抽样实际误差:某一次具体抽样中,样本统计量的值与总体参数真实值之间的偏差。 抽样平均误差:样本统计
28、量的所有可能取值与总体指标之间的平均差异程度。 当样本统计量的期望恰好等于被估计的总体参数时,其抽样平均误差就是该随机变量的标准差,称为抽样标准差。 抽样极限误差:一定概率下抽样误差的可能范围,说明样本统计量在总体参数周围变动的范围,记作,又称为允许误差。,5.3 抽样分布,5.3.1 总体分布,总体中各元素的观察值所形成的分布; 分布通常是未知的; 可以假定它服从某种分布。,5.3.2 样本分布,一个样本中各观察值的分布 也称经验分布 当样本容量n逐渐增大时,样本分布逐渐接近总体的分布,5.3.3 抽样分布,抽样分布:是由来自某总体样本的n个观测值计算的统计量的概率分布,是一种理论分布。 从
29、同一个总体中重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布。 来自同一总体中容量相同的所有可能样本。 提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据。,例题分析,【例】设一个总体,含有4个元素(个体) ,即总体单位数N=4。4 个个体分别为x1=1,x2=2,x3=3,x4=4 。总体的均值、方差及分布如下:,均值和方差,现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为:,计算出各样本的均值,如下表。并给出样本均值的抽样分布:,比较及结论:样本均值的均值(数学期望) 等于总体均值 样本均值的方
30、差等于总体方差的1/n, = 2.5 2 =1.25,总体分布,抽样分布的形成过程,一、样本均值的抽样分布,由独立同分布中心极限定理,如果n充分大,当重复抽样时,样本均值 服从均值为,方差为2的正态分布,即即一般认为,样本容量n充分大的条件为n30。 称 为样本均值的抽样标准差。,的分布趋于正态分布的过程,由标准正态分布的性质,有,当不重复抽样时,可以证明,样本均值 仍服从正态分布,其均值仍为总体均值,而方差变为其中(N-n)/(N-1)为修正系数。当Nn时,修正系数可取近似值1,即(N-n)/(N-1)1。,在样本均值的抽样分布中,当总体服从正态分布时,如果总体标准差未知,则用样本标准差s代
31、替。由t分布的定义,统计量服从自由度为n-1的t分布,即,例题分析,【例】考察=100和=20的正态总体。如果随机选择大小为16的一组样本,求这组样本的均值落在90与110之间的概率。 解:由题意有,例题分析,【例】幼儿园里孩子的身高是关于均值为39英寸、标准差为2英寸的近似正态分布。抽取大小为25的一组随机样本,计算均值,求该均值在38.5与40.0英寸之间的概率。 解:由题意有,例题分析,【例】参看例题2中幼儿园孩子的身高,在什么样的正中央范围内样本大小为100的样本均值的90%抽样分布落入其中? 解:,例题分析,二、样本比率的抽样分布,样本比率p:样本中具有某种性质的单位n0与全部单位n
32、总体之比p=n0/n 总体比率:总体中具有某种性质的单位N0与全部单位N总体之比=N0/N 如果从总体中简单随机抽样,则每次抽中的单元具有性质A的概率为。从总体中抽取一个容量为n的简单随机样本,则该样本中具有性质A的单元的个数随机变量X服从参数为(n,)的二项分布,即XB(n,)。,由伯努利中心极限定理,当n充分大时,随机变量X近似服从均值为n,方差为 n(1-)的正态分布,即所以样本比率p=X/n近似服从均值为,方差为(1-)/n的正态分布,即样本比率抽样估计中,当np5,且 n(1-p) 5时,认为样本容量n充分大。,在不重复抽样的条件下,用修正系数对样本比率的方差加以修正所以,【例】某地
33、招录考试中,录取比率为10%,现随机抽取了100名考生,并计算这100名考生的录取比率。 试计算这100名考生中录取比率低于7%的概率。 在什么样的正中央范围内样本容量为10000的样本均值以95%的概率落入其中?,三、样本方差的抽样分布,由卡方分布的定义,对来自正态总体的简单随机样本,统计量2=(n-1)s2/2服从自由度为n-1的卡方分布,即综上,我们不难发现,抽样分布给出了样本统计量和其对应的总体参数之间的关系,为抽样估计奠定了坚实的理论基础。,抽样分布形式,样本统计量,样本均值,样本比率p,样本方差s2,大样本,大样本,正态总体 (小样本),正态分布,t分布,正态分布,2分布,5.4 SPSS在概率论中的应用,思考题:假设一个总体共有6个数值:-6,-5,-1,3,4,8. 从中按重复抽样的方式抽取n=2的随机样本。 求样本均值 的抽样分布。,