1、抽样误差和可信区间Sampling Error & Confidence Intervals,Medical statistics医学统计学,主要内容(Content),抽样误差及其规律性标准误抽样分布与t分布统计推断与参数估计总结,一均数的抽样误差(sampling error)与标准误(standard error, SE),抽样研究的目的是要用样本信息推断总体特征,称统计推断,1. 抽样误差的定义,假如事先知道某地七岁男童的平均身高为119.41cm。为了估计七岁男童的平均身高(总体均数),研究者从所有符合要求的七岁男童中每次抽取100人,共计抽取了三次。,三次抽样得到了不同的结果,原因
2、何在?,【定义】由于个体变异的存在,在抽样研究中产生样本统计量和总体参数之间的差异,称为抽样误差(sampling error)。各种参数都有抽样误差,这里我们以均数为研究对象,抽样误差的定义,抽样误差的表现,抽样误差的重要性,总体同质个体、个体变异,总体参数未知,样本代表性、抽样误差,随机抽样,样本统计量 已知,统计推断,风 险,2. 抽样误差的规律性(分布),既然抽样误差是有规律的,那么到底它的分布规律到底是怎样的?,SAMPLE 1:x11 x12 x13 x14.x1n,SAMPLE 2:x21 x22 x23 x24.x2n,SAMPLE k:xk1 xk2 xk3 xk4.xkn,
3、A Simulation Study,原始总体,k个样本均数的频数分布图,从正态总体中随机抽样,其样本均数服从正态分布从任意总体中随机抽样,当样本含量足够大时,其样本均数的分布逐渐逼近正态分布,均数的抽样误差 -的分布,3. 标准误的定义,抽样误差的标准差称为标准误(standard error)。样本统计量的标准差反映了从某个总体中随机抽样所得样本之均数分布的离散程度。,标准误的计算,计算公式为其中,为总体标准差,n为抽样的样本例数在研究工作时,由于总体标准差常常未知,可以利用样本标准差近似估计,标准误的意义,反映了样本统计量(样本均数,样本率)分布的离散程度,体现了抽样误差的大小。标准误越
4、大,说明样本统计量(样本均数,样本率)的离散程度越大,即用样本统计量来直接估计总体参数越不可靠。反之亦然。标准误的大小与标准差有关,在例数n一定时,从标准差大的总体中抽样,标准误较大;而当总体一定时,样本例数越多,标准误越小。说明我们可以通过增加样本含量来减少抽样误差的大小。,二t分布,t分布的演化,由于总体标准差往往是未知的,此时往往用样本标准差代替总体标准差,这里,为自由度,取值为n-1由W.S. Gosset提出,自由度分别为1、5、 时的 t 分布,t分布的图形,t分布的性质,t分布为一簇单峰分布曲线,高峰在0的位置上,说明从正态总体中随机抽样所得样本计算出的t值接近0的可能性较大。t
5、分布以0为中心,左右对称。分布的高峰位置比 u 分布低,尾部高。t分布与自由度有关,自由度越小,t分布的峰越低,而两侧尾部翘得越高;自由度逐渐增大时,t分布逐渐逼近标准正态分布;当自由度为无穷大时,t分布就是标准正态分布。每一自由度下的t分布曲线都有其自身分布规律。t界值表 。,t分布曲线下的面积,t界值表,单侧: P(t t,)= 双侧: P(t t/2,)= 即:P(-t/2,t t/2,)= 1-例 查t界值表得t值表达式 t 0.05,10=2.228 (双侧) t 0.05,10=1.812 (单侧),统计推断,所谓统计推断(statistical inference),是指如何抽样
6、,以及如何用样本性质推断总体特征。参数估计(parameter estimation)假设检验(hypothesis testing),三. 参数估计,点估计(Point Estimation)区间估计 (Interval Estimation),参数估计之一:点估计,用样本统计量作为总体参数的估计 例如: 用样本均数作为总体均数的一个估计,区间估计,可信区间的定义总体均数之可信区间的求解均数之差的可信区间可信区间的要素正确理解可信区间的含义,区间估计,【例4.1】 随机抽取某地25名正常成年男子,测得该样本的脉搏均数为73.6次/分,标准差为6.5次/分,估计正常成年男子脉搏总体均数。,区间
7、估计的实质,假设某个总体的均数为,需要找到两个量A和B,使得在一个比较高的可信度下(如95%),区间(A,B)能包含。即P(AB)=0.95,可信区间的定义,按一定的概率或可信度(1-)用一个区间来估计总体参数所在的范围,该范围通常称为参数的可信区间或者置信区间(confidence interval,CI),预先给定的概率(1-)称为可信度或者置信度(confidence level),常取95%或99%。 可信区间(CL, CU )是一开区间 CL、CU 称为可信限,均数的(1-)100%可信区间,1-,均数的95%可信区间,样本含量不是很大时,样本含量较大时,t分布逼近u分布,例:,【例
8、4.1】 随机抽取某地25名正常成年男子,测得该样本的脉搏均数为73.6次/分,标准差为6.5次/分,求该地正常成年男子脉搏总体均数95%的可信区间。【例4.2】 某市2001年120名7岁男童的身高=123.62(cm),标准差s=4.75(cm),计算该市7岁男童总体均数90%的可信区间。,均数之差可信区间的计算,正常组 肝炎组, 1- 2 ?,合并方差与均数之差的标准误,合并方差(方差的加权平均)均数之差的标准误,与均数之差有关的抽样分布,“均数之差”与“均数之差的标准误”之比,服从自由度 = n1+n2 -2的 t 分布。样本含量较大时,服从标准正态分布。,计算,可信区间的两个要素,可
9、信度(Confidence):准确性,可靠性,即1-。一般取90%,95,可人为控制精确性(Precision):区间的大小,越小越好。必须二者兼顾,可信区间的宽度及影响因素,均数的(1-)可信区间为 则其宽度为,可信区间的宽度,可信度越大,可信区间越宽,说明用该区间来估计总体参数(总体均数)越可靠。标准差越小,可信区间就越窄,意味着如果总体内变异程度较小时,在相同的可信度下,只需要一个比较窄的可信区间就可以估计总体均数。随着样本含量的增加,可信区间逐渐变窄。,正确理解可信区间,可信度为95%的CI的涵义:每100个样本,按同样方法计算95%的CI,平均有95%的CI包含了总体参数。这里的95%,指的是方法本身!而不是某个区间!总体参数虽未知,但却是固定的值,而不是随机变量值 。,95%可信区间的含义,按这种方法构建的可信区间,理论上平均每100次,有95次可以估计到总体参数。,下列说法正确吗?,算得某95%的可信区间,则: 总体参数有95%的可能落在该区间。 有95%的总体参数在该区间内。 该区间包含95%的总体参数。 该区间有95%的可能包含总体参数。 该区间包含总体参数,可信度为95%。,概念辨析,标准差标准误个体变异 抽样误差参考值范围 可信区间变量分布 抽样分布,简述标准差和标准误的区别和联系简述参考值范围与均数的可信区间的区别和联系,Thank U,