1、第六章:抽样与抽样分布,第 6 章 统计量及其抽样分布,6.1 统计量6.2 关于分布的几个概念 6.3 由正态分布导出的几个重要分布 6.4 样本均值的分布与中心极限定理6.5 样本比例的抽样分布6.6 两个样本平均值之差的分布6.7 关于样本方差的分布,6.1 统计量,6.1.1 统计量的概念6.1.2 常用统计量6.1.3 次序统计量 6.1.4 充分统计量,常用的总体参数,总体参数总体平均值总体方差总体标准差总体比率,统计量(statistic),设X1,X2,Xn是从总体X中抽取的容量为n的一个样本,如果由此样本构造一个函数T(X1,X2,Xn),不依赖于任何未知参数,则称函数T(X
2、1,X2,Xn)是一个统计量样本均值、样本比例、样本方差等都是统计量统计量是样本的一个函数统计量是统计推断的基础,常用统计量,样本统计量样本平均值样本方差样本标准差样本比率,常用统计量,样本统计量样本变异系数样本k阶矩样本k阶中心矩,常用统计量,样本统计量样本偏度系数样本峰度系数,次序统计量,一组样本观测值X1,X2,Xn由小到大的排序 X(1)X(2) X(i) X(n) 后,称X(1),X(2),X(n)为次序统计量 中位数、分位数、四分位数等都是次序统计量,充分统计量,统计量加工过程中一点信息都不损失的统计量通常称为充分统计量,【例】某电子元件厂欲了解其某产品的不合格率p,质检员抽检了1
3、00个电子元件,检查结果是,除前3个是不合格品(记为X1=1, X2=1, X3=1 ),其他都是合格品(记为Xi0,i4,5,,100)。当企业领导问及抽检结果时,质检员给出如下两种回答:(1)抽检的100个元件中有3个不合格(记为 )(2)抽检的100个元件中前3个不合格( X1=1, X2=1, X3=1 ),6.2 关于分布的几个概念,6.2.1 抽样分布6.2.2 渐进分布6.2.3 随机模拟获得的近似分布,6.2.1三种不同性质的分布,总体分布样本分布抽样分布,总体分布(population distribution),总体中各元素的观察值所形成的分布 分布通常是未知的可以假定它服
4、从某种分布,样本分布(sample distribution),一个样本中各观察值的分布 也称经验分布 当样本容量n逐渐增大时,样本分布逐渐接近总体的分布,抽样分布 (sampling distribution),样本统计量的概率分布,是一种理论分布在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布 样本统计量是随机变量样本均值, 样本比例,样本方差等结果来自容量相同的所有可能样本提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据,抽样分布的形成过程 (sampling distribution),6.2.2渐近分布,样本统计量的极限分布常
5、称为渐近分布,6.2.3随机模拟获得的近似分布,利用计算机应用随机模拟方法获得统计量的近似分布,6.3 由正态分布导出的几个重要分布,6.3.1 2分布6.3.2 t 分布6.3.3 F 分布,2 分布,由阿贝(Abbe) 于1863年首先给出,后来由海尔墨特(Hermert)和卡皮尔逊(KPearson) 分别于1875年和1900年推导出来设 ,则令 ,则 Y 服从自由度为1的2分布,即当总体 ,从中抽取容量为n的样本,则,2分布(2 distribution),分布的变量值始终为正 分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称 期望为:E(2)
6、=n,方差为:D(2)=2n(n为自由度) 可加性:若U和V为两个独立的2分布随机变量,U2(n1),V2(n2),则U+V这一随机变量服从自由度为n1+n2的2分布,2分布(性质和特点),c2分布(图示),t 分布,t分布,t-分布是由W.S.Gosset(1876-1937)于1908年在一篇署名为“student”的论文中首次提出,因此又称为“学生氏”分布。 设随机变量X N(0,1), Y ,且X和Y相互独立,则随机变量 的分布称为自由度为n的t-分布,并记为T t(n),t分布,t -分布 是一概率分布簇。某一特定的 t 分布依赖于参数n,称之为自由度。随着自由度的增加,t-分布与正
7、态分布之间的差距将会不断减小(n30)。随着自由度的增加,t-分布的离散程度也将减小。t-分布的均值为0,方差为,t分布,F 分布,由统计学家费希尔(R.A.Fisher) 提出的,以其姓氏的第一个字母来命名设若U为服从自由度为n1的2分布,即U2(n1),V为服从自由度为n2的2分布,即V2(n2),且U和V相互独立,则 称F为服从自由度n1和n2的F分布,记为,F分布(F distribution),F分布(F distribution), 不同自由度的F分布,6.4 样本均值的分布与中心极限定理,一个总体参数推断时样本统计量的抽样分布,样本均值的抽样分布,在重复选取容量为n的样本时,由样
8、本均值的所有可能取值形成的相对频数分布一种理论概率分布推断总体均值的理论基础,样本均值的抽样分布(例题分析),【例】设一个总体,含有4个元素(个体) ,即总体单位数N=4。4 个个体分别为x1=1,x2=2,x3=3,x4=4 。总体的均值、方差及分布如下,均值和方差,样本均值的抽样分布 (例题分析), 计算出各样本的均值,如下表。并给出样本均值的抽样分布,样本均值的分布与总体分布的比较 (例题分析), = 2.5 2 =1.25,总体分布,样本来自正态分布【正态分布再生定理】:设 为一组随机变量,若它们相互独立,而且都服从正态分布 ;则服从正态分布 。,已知时,样本均值的抽样分布,【正态分布
9、再生定理】:如果容量为n的随机样本抽自平均数为u方差为 的正态分布总体,则样本平均数 也服从正态分布,该分布的期望值为 ,方差为 。,当N远远大于n时,即时,也可将不退还抽样看作退还抽样。,其中,已知时,样本均值的抽样分布,样本来自非正态总体【中心极限定理】设 为一组随机变量,若它们相互独立,而且具有相同分布;期望,方差 ;则服从正态分布 。,【注】对任意分布形态的平均数为u,方差为 的总体进行随机抽样,只要样本容量足够大( n30)则样本平均数抽样分布逼近期望值为 ,方差为 的正态分布,样本均值的抽样分布,样本均值的抽样分布,其中,通常把n30作为“n很大”的标准。样本容量n30称为大样本,
10、否则称为小样本。,中心极限定理,x 的分布趋于正态分布的过程,样本均值的抽样分布(例题分析),【例】某类钢制产品的重量,经过多次衡量,取得有差异的一系列数据,这些数据近似的服从正态分布,设平均值为2800公斤,方差为9000公斤。现假定从该总体中抽出容量为10的随机样本。问这个样本的平均重量小于或等于2750公斤的概率为多大?,样本均值的抽样分布(例题分析),【解】:样本来自于标准差已知的正态分布总体,故抽样分布为正态分布。其中,样本均值的抽样分布(例题分析),【例】从海外A地区、B地区、和C地区到货了3批大豆,分别为1000包、10000包和100000包,已知3批大豆中平均每包重量都为10
11、0公斤,标准差都是4公斤。现从每批中都按不重复抽样抽取样本容量n=500包的样本,来测定这3批大豆的每包平均重量,要求分别标出样本平均重量短秤半公斤的概率。,样本均值的抽样分布(例题分析),解:从A地区大豆抽样的,从B地区大豆抽样的,样本均值的抽样分布(例题分析),从C地区大豆抽样的,如果不作总体修正,则,样本均值的抽样分布(例题分析),A地区,B地区,C地区,抽样分布与总体分布的关系,总体分布,正态分布,非正态分布,大样本,小样本,正态分布,正态分布,非正态分布,未知时,样本均值的抽样分布,总体是正态总体或非正态总体但样本量很大,未知,总体是正态总体,未知,总体非正态总体且样本量很大,未知,
12、总体非正态总体且样本量很小,分布未知,t分布表的使用,【例】某银行向审计部门报告,其向企业发放的短期贷款中,未偿还的贷款额近似服从正态分布,平均值为8.5万元,标准差未知。现审计人员为了验证这个报告结果,随机抽取了25个项目进行检查,查得平均拖欠贷款额为7.6万元,标准差为1.6万元。审计人员所关心的问题是,如果总体均值为8.5万元,那么能抽到的样本其平均值不超过7.6万元的概率有多大?,例题分析,解:由于总体标准差未知 ,所以采用t分布,其中,n=25,自由度n-1=24,6.5 样本比例的抽样分布,比例(proportion),总体(或样本)中具有某种属性的单位与全部单位总数之比不同性别的
13、人与全部人数之比合格品(或不合格品) 与全部产品总数之比总体比例可表示为样本比例可表示为,样本比例的抽样分布,样本比例的数学期望样本比例的标准差重复抽样不重复抽样,样本比例的抽样分布,3. 当样本容量很大,即 时,由中心极限定理有:,样本比例的抽样分布(例题分析),【例】假定我们已知办公室人员所填写的表格中有5至少包括一处笔误。如果我们检查一个由475份表格组成的简单随机样本,其中至少含一处笔误的表格所占的比例在3和7.5%之间的概率有多大?,例题分析,解:由于n较大较小,n23.55.所以可用正态近似处理,认为样本比率的抽样分布服从正态分布,6.6 两个样本均值之差的抽样分布,样本统计量的抽
14、样分布 (两个总体参数推断时),两个样本均值之差的抽样分布两个样本比例之差的抽样分布 两个样本方差比的抽样分布,两个样本均值之差的抽样分布,两个独立总体都为正态分布,即 , 两个样本均值之差 的抽样分布服从正态分布,其分布的数学期望为两个总体均值之差方差为各自的方差之和,两个样本均值之差的抽样分布,两个样本均值之差的抽样分布(例题分析),【例】一个市场分析人员研究顾客在甲乙2个不同类型的食品杂货店中所花费的时间,他在每个商店中各观察了一个由75人组成的样本,发现商店甲的顾客所花费的平均时间为55分钟,商店乙的顾客所花的平均时间为49分钟。假定甲乙2个商店的顾客所花费平均时间的真值无差别,且标准
15、差对每个总体来说都是15分钟,问观察到样本差大于或等于6分钟的概率有多大?,两个样本均值之差的抽样分布(例题分析),解:两样本是相互独立,都服从正态分布。或总体不是正态总体,单位大样本。故均值差的分布为正态分布,且均值为 ,方差为,两个样本比例之差的抽样分布,两个总体都服从二项分布分别从两个总体中抽取容量为n1和n2的独立样本,当两个样本都为大样本时,两个样本比例之差的抽样分布可用正态分布来近似分布的数学期望为方差为各自的方差之和,两个样本比例之差的抽样分布(例题分析),【例】一项抽样调查表明甲城市的消费者中有15的人喝过商标为“圣洁”牌的矿泉水,而乙城市的消费者中只有8的人喝过该种矿泉水。如
16、果这些数据是真实的,样本那么当我们分别从甲城市抽取120人,乙城市抽取140人组成两个独立随机时,样本比例差不低于0.08的概率有多大?,两个样本比例之差的抽样分布(例题分析),6.7 关于样本方差的分布,6.7.1 样本方差的分布 6.7.2 两个样本方差比的分布,样本方差的分布,在重复选取容量为n的样本时,由样本方差的所有可能取值形成的相对频数分布对于来自正态总体的简单随机样本,则比值 的抽样分布服从自由度为 (n -1) 的2分布,即,两个样本方差比的分布,两个总体都为正态分布,即X1N(1 ,12),X2N(2 ,22 )从两个总体中分别抽取容量为n1和n2的独立样本两个样本方差比的抽样分布,服从分子自由度为(n1-1),分母自由度为(n2-1) 的F分布,即,