1、1/35,第四章 可信区间,(confidence interval),曾平流行病与卫生统计学教研室,2/35,例:某地120名12岁男孩身高均数为142.67cm,标准误为0.5477cm,问该地12岁男孩平均身高均数是多少? P36,前 言,3/35,实际工作:抽样研究,从总体到样本研究目的:由样本推断总体统计推断(statistical inference)就是根据样本所提供的信息,以一定的概率推断总体的性质。包括两方面的内容:参数估计和假设检验 。,4/35,统计推断(statistical inference),统计推断,参数估计,假设检验,点估计,区间估计,5/35,参数估计(pa
2、rameter estimation),由样本信息估计总体参数 点估计(point estimation)区间估计(interval estimation),6/35,4.1.1 点估计 (point estimation),直接用样本统计量作为总体参数的估计值 方法简单,但未考虑抽样误差的大小在实际问题中,总体参数往往是未知的,但它们是固定的值,并不是随机变量值。而样本统计量随样本的不同而不同,属随机的。该地12岁男孩平均身高均数是142.67cm。,7/35,4.1.2 区间估计(interval estimation),按一定的概率或可信度(1- )用一个区间估计总体参数所在范围,这个范
3、围称作可信度为1- 的可信区间(confidence interval, CI),又称置信区间 。这种估计方法称为区间估计。,8/35,可信区间的确切涵义,可信度为95% 的可信区间的确切涵义是:每100个样本所算得的100个可信区间,平均有95个包含了总体参数 。,9/35,10/35,下列说法正确吗?,算得某95%的可信区间,则: 总体参数有95%的可能落在该区间。 有95%的总体参数在该区间内。 该区间包含95%的总体参数。 该区间有95%的可能包含总体参数。 该区间包含总体参数,可信度为95%。,11/35,4.1.3 可信区间的两个要素,可靠性 反映为可信度1- 的大小 精确性 用区
4、间长度CU-CL衡量,12/35,4.2 均数的可信区间,13/35,总体均数的(1- )可信区间定义为:,14/35,大样本资料近似正态法,当样本含量较大时,例如n100,t分布近似标准正态分布,此时可用标准正态分布代替t分布,作为可信区间的近似计算。相应的100(1-)可信区间为:,15/35,例4.1 随机抽取12名口腔癌患者,检测其发锌含量,得均数为253.05g/g,标准误为27.18g/g,求发锌含量总体均数95的可信区间。 本例自由度 =12-1=11,经查表得t0.05/2,11=2.201,则,16/35,即口腔癌患者发锌含量总体均数的95可信区间为:193.23321.87
5、(g/g)。用该区间估计口腔癌患者发锌含量总体均数的可信度为95。,17/35,18/35,例4.2 某地120名12岁男孩身高均数为142.67cm,标准误为0.5477cm,计算该地12岁男孩身高总体均数90的可信区间。 因n=120100,故可以用标准正态分布代替 t 分布,u0.10/2=1.64,19/35,即该地12岁男孩平均身高的90可信区间为:141.77143.57(cm),可认为该地12岁男孩平均身高在141.77143.57(cm)之间。,20/35,21/35,4.2.2 两均数之差的区间估计,设两样本之样本含量、均数和方差分别为:n1,n2和s12,s22,根据数理统
6、计结果:,服从自由度为=n1+n2-2的t分布。,22/35,23/35,例4.3 某医生研究转铁蛋白对病毒性肝炎诊断的临床意义,测得12名正常人和15名病毒性肝炎患者血清转铁蛋白含量,结果如下,试估计正常人和患者的转铁蛋白含量均数之差的95可信区间。,24/35,s12=10.382s22=14.392,25/35,两组均数之差的95可信区间为:(271.8917-235.2067 ) 2.060 4.95 = 26.48 46.88 可以认为病毒性肝炎患者的血清转铁蛋白含量较正常人平均低36.68,其95CI为26.4846.88。,26/35,4.3 率的可信区间,与均数一样,率也存在抽
7、样误差, 率的标准差又称率的标准误为:,4.3.1率的抽样误差,27/35,率的抽样分布,当总体率0.5时为正偏态,当0.5时为负偏态,当=0.5时为对称分布。只有当 n 较大、率 和 (1-) 都不太小时,例如n 和 n(1-) 均大于 5 时,率的抽样分布近似于正态分布。,28/35,4.3.2 总体率的区间估计,正态近似法 查表法,29/35,正态近似法,条件: 样本例数n足够大,且样本率p和(1-p)都不 太小时,即 np 和 n(1-p) 均大于5时,样本率 p 的抽样分布近似正态分布,总体率的可信区间:,30/35,例 从某地人群中随机抽取144人,检查乙型肝炎表面抗原携带状况,阳
8、性率为9.20,求该地人群的乙型肝炎表面抗原阳性率的95可信区间。,n =144,p=9.20,95可信限为:9.20%1.962.41%即该地人群的乙型肝炎表面抗原阳性率的95可信区间为:4.48%13.92%。,31/35,查表法,例4.5 有人调查29名非吸毒妇女,出狱时有1名HIV(人免疫缺陷病毒)阳性,求阳性率95可信区间?,直接查附表6.2,在行n=29, 列 x=1 交叉处0.117.8即为阳性率95可信区间。,32/35,正确理解可信区间的涵义(一),可信区间一旦形成,它要么包含总体参数,要么不包含总体参数,二者必居其一,无概率可言。所谓95的可信度是针对可信区间的构建方法而言
9、的。 以均数的可信区间为例,其涵义是:如果重复100次抽样,每次样本含量均为n,每个样本均按 构建可信区间,则在此100个可信区间内,理论上有95个包含总体均数,而有5个不包含总体均数。,33/35,正确理解可信区间的涵义(二),在区间估计中,总体参数虽未知,但却是固定的值(且只有一个),而不是随机变量值 。,34/35,可信区间与参考值范围的区别,可信区间用于估计总体参数,总体参数只有一个 。参考值范围用于估计变量值的分布范围,变量值可能很多甚至无限 。95%的可信区间中的95%是可信度,即所求可信区间包含总体参数的可信程度为95%95%的参考值范围中的95%是一个比例,即所求参考值范围包含了95%的正常人。,35/35,over,