1、第六章总体均数的估计,授课教师:朱彩蓉,总体均数的估计,均数的抽样误差与标准误 t分布 总体均数的估计,为什么进行抽样?,均数的抽样误差,概念:抽样引起的总体参数与样本统计量之间的差异称为抽样误差(sampling error) 。 均数的抽样误差:抽样引起的样本均数与总体均数的差异称为均数的抽样误差。,样本,100个样本,样本均数 抽样误差样本1样本2样本k,总体,从总体N(4.5,0.22)中抽出100个样本的均数,从总体N(4.5,0.22)中抽出100个样本的样本均数的频数分布,样本均数抽样分布的特点,各样本均数未必均等于总体均数 样本均数之间存在差异 样本均数的分布规律:围绕着总体均
2、数,中间多两边少,左右对称,基本服从正态分布 样本均数的变异较原变量的变异范围小 随着样本含量的增加,样本均数的变异范围逐渐缩小,数理统计的中心极限定理,从正态分布N(,2)中,以固定n抽取样本,样本均数的分布仍服从正态分布; 即使是从偏态分布总体抽样,只要n足够大,样本均数的分布也近似正态分布; 样本均数的总体均数仍为,样本均数的标准差为 。,标准误(standard error),样本均数的标准差称标准误,是说明均数抽样误差大小的指标, 大,抽样误差大;反之,小,抽样误差小 。标准误 的计算:标准误 的估计值:,影响标准误大小的因素,的大小与成正比与样本含量n的平方根成反比,频数分布图,图
3、4.1 2005年某市120名9岁男孩肺活量频数分布,标准正态分布N(0, 1),t分布,t分布的由来 t分布的特征 t分布曲线下的面积,t分布的由来,变量变换,总体,样本均数,中心极限定理,标准正态分布,变量变换,未知,如果抽取例数n=5的样本k个,每个样本又都可以按公式(6.3)计算出一个t值,可将k个t值编制成频数表,作出直方图,当k无限增大时,则可得到一条光滑的曲线。(式6.3 )同理,如果抽取例数n=15时,仍能得到一 条t分布曲线,因此,当n变化时,就可以得到不 同的t分布曲线,如图6.4:,图6.4 自由度分别为1、5、的t分布,自由度,随机变量能够自由取值的个数= n-限制条件
4、的个数 例:如求当 ,均数也为5时,随机变量X能自由取值的个数?1 ,2 ,3 , 4,t分布的特征,t分布是一簇单峰分布曲线。 t分布以0为中心,左右对称且均匀下降。 其形态变化与自由度的大小有关。自由度越小,则t值越分散,曲线越低平;自由度逐渐增大时,t分布逐渐逼近标准正态分布;当=时,t分布即为标准正态分布。,t分布曲线下面积规律,t分布曲线下总面积仍为1或100% t分布曲线下面积以0为中心左右对称。 由于t分布是一簇曲线,故t分布曲线下面积固定面积(如95%或99%)的界值不是一个常量,而是随自由度的大小而变化,如附表3 。,附表3,t分布表的特点,附表3的横标目为自由度,纵标目为概
5、率P,表中数值为其相应的t界值,记作t, 。 附表3只列出正值,若计算的t值为负值时,可用其绝对值查表 。 附表3右上附图的阴影部分表示t,以外尾部面积的概率 。,单侧t0.05,30=1.697,其通式为, 单侧:P(t-t,)=或P(tt,)= 双侧:P(t-t/2,)+P(tt/2,)=图中非阴影部分面积的概率为, P(-t/2,tt/2,)=1-,总体均数的估计,用样本指标估计总体指标称为参数估计,是统计推断的一个重要方面。 总体均数估计的两种方法 点估计:是直接用统计量估计总体参数. 区间估计:由于抽样误差的客观存在,因而按一定的概率(100(1-)%)估计总体均数所在的范围(亦称可
6、信区间)。,点估计,例:已知150例7岁男童的平均身高为123.8cm,标准差为4.7cm,试估计该地所有7岁男童身高的总体均数?答:该地所有7岁男童身高的总体均数为123.8cm。,区间估计,概念:即按一定的概率(100(1-)%)估计总体均数所在的范围(亦称置信区间)。,置信区间的计算,未知,且n小 未知,但n足够大 已知,例6.3:在某地成年男子中随机抽取25人,测得其脉搏均数为72次/min,标准差为8次/min。试估计该地成年男性脉搏总体均数的95%置信区间。,=(68.7,75.3)次/分根据样本计算,可推断该地成年男性脉搏总体均数的95%置信区间为(68.7,75.3)次/分。,
7、两总体均数差值的置信区间,假设正态总体 和 ,当 , 均未知,但 时,则两总体均数之差( )的双侧( )置信区间为:其中, ,当n1,n2均较大时,差值的可信区间为:,例6.5 测定28例结核病患者和34例对照者的脑脊液中镁(mmol/L)的含量,结果见表6.5,试估计结核病人和对照者的脑脊液中镁含量的总体均数之差的95%置信区间。,表6.5 两对比组脑脊液中镁含量(mmol)组别 例数 均数 标准差 结核组 28 1.04 0.17 对照组 34 1.28 0.14,解:假定两组方差齐,根据公式6.7,6.8,6.9可得:,所以两总体均数之差的95%可信区间为(0.16,0.32)mmol/L,置信区间有两个要素,准确度:反映在可信度(1-)的大小上,即可信区间包含总体均数的可能性大小,从准确度的角度看,愈接近1愈好,如可信度99%比95%好。 精密度:反映在可信区间的长度上,即长度愈小愈好。 在抽样误差确定的情况下,二者是相互矛盾的,若提高了可信度,可信区间势必增大,精密度下降。因此,需要同时兼顾准确度与精密度,一般情况下,常用95%可信区间。,