1、总体均数的估计和假设检验,Statistical inference: Estimation of Parameter and Hypothesis Test,内 容,均数的抽样误差和标准误 t分布 总体均数的估计 假设检验 t检验和z检验,一、均数的抽样误差和标准误,1. 统计推断:由样本信息推断总体特征。 2. 抽样误差:样本指标值与总体指标值之间的差异。根源在于个体变异,不可避免,但规律可以认识。 3. 标准误:样本均数的标准差称为标准误,它是说明均数抽样误差大小的指标。可通过增加样本例数减少标准误。,4.标准差和标准误的区别和联系,(1)区别:,4.标准差和标准误的区别和联系,(2)联
2、系:二者都是变异指标。在样本含量一定时,标准差越大,标准误越越大。,二、t 分布,1. 概念:若y服从标准正态分布N(0,1),x服从自由度为的2 分布,则随机变量:,服从自由度为的t分布。,若x服从N(, 2),则,,则有,服从t分布。,(1) 对称于零的单峰分布,其高峰较标准正态分布低,两端较标准正态分布高。(2) 自由度越小,则t分布与标准正态分布相差越大;随着自由度的增加,t分布逼近标准正态分布。当自由度为时,t分布就为标准正态分布。,2、t分布的图形和特点:,t分布的特征,三、总体均数的估计,1、点估计:样本统计量直接作为总体指标的估计值。它未考虑抽样误差的大小。 例1:为了解某地1
3、岁婴儿的血红蛋白浓度,从该地随机抽取了1岁婴儿25人,测得其血红蛋白的平均数为123.7g/L,标准差为11.9g/L。试估计该地1岁婴儿的血红蛋白的平均浓度。由于 123.7g/L,则123.7g/L。,三、总体均数的估计,2、区间估计:按预先给定的概率(1-)确定的包含未知总体参数的可能范围。(1) 小样本资料的估计(未知),由 可得到当可信度1-时,计算总体均数的可信区间的通式为:,例2:试求例1中该地1岁婴儿血红蛋白平均值的95%的可信区间。,由于n25,s=11.9g/L, n124,取双尾0.05,查t界值表得: t0.05,24=2.064,代入通式中,得到所求可信区间为: (1
4、23.72.0642.38,123.72.064 2.38) 即:(118.79,128.61)g/L。,三、总体均数的估计,(2)已知,或未知但是大样本资料时,按z分布 ,通式为: 已知:,未知但n较大时:,(3) 可信区间与可信限。 可信区间是指包括总体参数的范围,可信限是指范围的两个界限,可信区间的上下限即为可信限。,4、可信区间与参考值范围的 区别和联系。,(1)区别:可信区间是指用样本指标估计的相应的总体指标所在的范围。如:按95%的可信度估计的总体均数的可信区间用式 : 计算,所用的是标准误。,参考值范围是指包括总体中大多数个体值的估计范围。如:正态分布资料,95%的双侧参考值范围
5、用式: 计算,所用的是标准差。,(2)联系:,二者都是根据一定的可信度进行的估计,即有一定的概率性。 如:在 中包括总体均数的可能性和在 中包括的个体值均为95%。,例3:,根据大量调查,一般健康成年男子的平均血红蛋白含量为140.00g/L,现某医生在山区随机测定了25名健康成年男子,其血红蛋白均数为153.64g/L,标准差为24.82g/L,故认为该山区成年男子的血红蛋白均数高于一般健康成年男子血红蛋白均数。,四、假设检验,1、概念:通过样本与总体、样本与样本之间的比较来判断总体是否相同。即判断样本与总体、样本与样本的差异是由抽样误差引起的,还是有本质的区别。 2、基本思想: (1)小概
6、率思想 (2)反证法思想,3、假设检验的基本步骤,(1)提出无效假设和备择假设H0 :样本与总体、样本与样本之间的差异是由抽样误差引起的。H1 :存在本质区别。确定检验水准(一般取0.05) (2)选定统计方法和计算统计量,3、假设检验的基本步骤,(3)确定P值并判断结果:若P ,则不能拒绝H0,可认为差别是由抽样误差引起的。若P ,则拒绝H0,接受H1,可认为存在本质差别。,3、假设检验的基本步骤,建立检验假设 H0: H1:0.05,选择检验方法 计算统计量,确定P值,判断结果,不拒绝H0,拒绝H0,接受H1,P,P,五、t检验和z检验,1、应用条件:t检验:当样本例数n较小时,要求样本取
7、自正态总体。z检验:样本例数较大,或n虽小而总体标准差已知。,2、样本均数与总体均数比较的t检验,目的:推断样本所代表的未知总体均数与已知总体均数有无差别。 H0: = 0 H1: 0 所用公式:,1建立检验假设,确定检验水准H0:山区成年男子血红蛋白均数与一般成年男子血红蛋白均数相同H1:山区成年男子的血红蛋白均数高于一般单侧= 0.05 2计算检验统计量t值t2.748 3确定P值,作出统计推断0.005P0.01,2、样本均数与总体均数比较的t检验,3、配对t检验,(1) 配对资料 a.配对设计资料:将受试对象按一定条件配成对子,分别给予每对中的两个受试对象以不同的处理。 b.自身对照资
8、料:同一个受试对象给予不同的处理或者处理前后的观察结果。,(2) 检验目的:推断差数的总体均值是否为零,即处理是否有效或两种处理效果是否相同。 (3) 配对设计可减少试验误差,配对t检验可提高统计效率。,3、配对t检验,3、配对t检验,所用公式:H0:d0H1:d0,自由度vn1,例4:,为探讨MRI无创性测量肺脉舒张压的新途径,分别用MRI和右心导管两种方法测量12名患者的肺脉舒张压,资料如表1。问两种方法的检测结果有无差别?,表1 两种方法检测患者的肺脉舒张压(kPa),检验步骤:,1. H0:两种方法检测的肺脉舒张压相同H1:两种方法检测的肺脉舒张压不同0.05 2. 计算t值:t1.7
9、728 3. 确定P值,判断结果:P0.104不拒绝H0,可认为(或还不能认为),例5:,为研究女性服用某避孕新药后是否影响其血清总胆固醇含量,将20名女性按年龄配成10对。每对中随机抽取一人服用新药,另一人服用安慰剂。经过一定时间后,测得血清总胆固醇含量(mmol/L),结果见表2。问新药是否影响女性血清总胆固醇含量?,检验步骤:,1. H0:避孕新药对女性血清总胆固醇含量H1:总胆固醇含量有影响 2. 计算t值:t1.542 3. 确定P值,判断结果:P0.154不拒绝H0,可认为(或还不能认为),例6:,某医生随机抽取正常人和脑病病人各11例,测定尿中类固醇排出量(mg/dl),结果如表
10、3。该医生根据此资料算得正常人尿中类固醇排出量的均数4.266mg/dl,标准差s10.985mg/dl;脑病病人尿中类固醇排出量的均数5.732mg/dl,标准差s21.626 mg/dl,配对t检验结果,t 3.098,P0.05,故认为脑病病人尿中类固醇排出量高于正常人。,表3 正常人和脑病病人尿中类固醇排出量 (mg/dl),4、成组t检验,(1) 用于完全随机设计(completely randomized design)的两个样本均数或两个独立样本(independent sample)的均数间的比较。 (2)目的是推断两样本是否来自同一总体,或两样本分别代表的总体均数是否相等。,
11、(3) 资料要求:两样本来自正态或近似正态分布,并且两组总体方差相等。 (4) 对数正态分布的资料,在进行t检验时,要先把数据进行对数转换,用对数值作为新变量进行成组t检验。,4、成组t检验,4、成组t检验,(4) 公式:H0: 1 2H1:1 2,自由度vn1n22,检验步骤:,1. H0:两种人群尿中类固醇排出量H1:两种人群尿中类固醇排出量0.05 2. 计算t值:t-2.557 3. 确定P值,判断结果:0.01P0.02拒绝H0,接受H1,可认为,例7:,表4 野木瓜和哌替啶的镇痛时间,检验步骤:,1. H0:两种药物的镇痛效果H1:两种药物的镇痛效果0.05 2. 计算t值:t7.
12、859 3. 确定P值,判断结果:P0.0005拒绝H0,接受H1,可认为,5、t检验,当方差不齐时,两小样本均数的比较用t检验。 检验统计量:,临界值:,如果t t,则P,则拒绝原假设。,6、z检验,当样本含量较大时,可用z检验来进行两样本均数的比较。它是用于两大样本均数的比较,目的是推断两总体均数是否相同。所用公式:,7、第一类错误和第二类错误,第一类错误:H0成立,但检验后被拒绝了,即“弃真”。发生的概率为。 第二类错误:H0不成立,但检验后被接受了,即“取伪”,发生的概率为,未知。 样本含量固定时,增大,减小;减小,增大。当增大样本含量时,、均减小。,8、进行假设检验应注意的问题,要有
13、严密的研究设计(资料间的可比性) 正确理解差别有无统计意义 正确选用统计方法 结论不能绝对化 报告结果时应写出P值的确切范围。,9、假设检验与可信区间的区别和联系,可信区间用于推断总体参数所在的范围,假设检验用于推断总体参数是否不同。前者估计总体参数的大小,后者推断总体参数有无质的不同。 可信区间也可回答假设检验的问题。但可信区间不能提供确切的P值范围。只能给出在水准上有无统计意义。 可信区间还可提示差别有无实际意义。,假设检验与可信区间的区别和联系,本章重点,标准误的概念及其意义。总体均数的估计:大、小样本。假设检验的基本思想和基本步骤。t检验:单样本、配对、成组t检验。应用假设检验的注意事项。,