1、李亚超 公共卫生系流行病与卫生统计学教研室2018年6月8日星期五,总体均数的估计,复习,【1-3题共用题干】成都市50岁及以上妇女骨质疏松抽样调查中,研究对象的年龄直方图如下:1.研究对象年龄的分布形式为:A 对称分布 B 正偏态分布C 负偏态分布 D 正态分布 E 分布形式未知2.根据上图,描述年龄集中位置应选择:A B X C G D M E Mo3.根据上图,描述年龄离散程度应选择:A R B IQR C S D E CV,复习,4.设正态分布XN(, 2),则正态分布曲线下1.96, +1.65之间的面积为:A 90%B 92.5%C 95% D 97.5% E 99%5.利用抽样研
2、究制定男性血红蛋白95%医学参考值范围,下列说法错误的是:A 该范围为95%的“正常”男性血红蛋白测量值的波动范围B 理论上有95%的“正常”男性血红蛋白测量值在该范围内C 应同时制定该区间的上限和下限D 若男性HB服从正态分布,可用 计算E 男性血红蛋白总体均数有95%可能性在该范围内,内容提要,抽样误差(sampling error),由于个体变异引起的,在抽样过程中发生的,总体参数与样本统计量之间的差异产生原因:个体变异产生条件:抽样研究表现形式:样本统计量与总体参数之间的差异度量指标:标准误(standard error of mean,SEM)统计符号:,从总体N(6.0, 1.52
3、)中进行随机抽样样本例数n分别为10、30、50、100每种样本含量下进行100次抽样计算样本均数 和标准差S,数学模拟样本均数的抽样分布,从总体N(6.0, 1.52)中抽出100个样本的均数、标准差,不同抽样例数100次抽样中样本均数和总体均数之间的关系,样本统计量和总体参数间的关系,样本统计量总是围绕着总体参数上下波动,不会离开总体参数太远样本统计量是个变量总体参数和样本统计量之间总是存在一定差异当样本量n时,样本统计量无限的逼近于总体参数,抽样误差(sampling error),由于个体变异引起的,在抽样过程中发生的,总体参数与样本统计量之间的差异产生原因:个体变异产生条件:抽样研究
4、表现形式:总体参数与样本统计量之间的差异度量指标:标准误,总体参数的估计,点估计:直接用样本统计量的值估计总体参数的值样本均数 估计总体均数 来自有代表性的样本样本量越大,估计的精度越高抽样误差客观存在总体参数和样本统计量之间总是存在一定差异,抽样误差(sampling error),由于个体变异引起的,在抽样过程中发生的,总体参数与样本统计量之间的差异产生原因:个体变异产生条件:抽样研究表现形式:样本统计量与总体参数之间的差异度量指标:标准误(standard error of mean,SEM)统计符号:,内容提要,样本均数直方图,样本均数直方图,频数,样本统计量的标准差(SE)刻画样本统
5、计量的变异性说明样本统计量抽样误差大小的指标,该值越大说明抽样误差越大 :样本均数的标准差:抽样研究中 未知时 的估计s估计:Bootstrap法,标准误(standard error),样本均数的抽样分布,引例,设大学生早餐前血糖水平XN(6.0, 1.52),随机抽取100名大学生进行血糖测量。,大学生早餐前血糖的分布,大学生早餐前血糖样本均数的分布,样本均数的抽样分布,已知,未知,X不服从正态分布,n足够大,中心极限定理,内容提要,t分布,为高斯特(William Sealy Gosset)于1908年所推导,并以笔名Student发表,故又名学生氏t分布(Students t-dist
6、ribution)总体标准差 未知,尤其当样本量较小时,说明样本均数与总体均数关系的概率分布形式,t分布曲线,t,f(t), =1,不同自由度下的t分布曲线, =5, =,t分布曲线的特征,钟形曲线以0为中心,左右对称,均匀下降单峰曲线以x轴为其渐近线与自由度有关的一簇曲线自由度越小,则t值越分散,曲线越低平自由度逐渐增大时,t分布曲线逐渐逼近标准正态分布曲线当=时,t分布即为标准正态分布,t分布曲线的特征,t分布曲线为 的概率密度曲线相应区间的曲线下面积为该区间t 值的发生概率曲线下总面积仍为1或100%,t,t分布曲线,总体标准差 未知,尤其当样本量较小时,说明样本均数与总体均数关系的概率
7、分布形式总体均数的估计t检验,t分布的用途,t,t分布曲线,t界值,|t|界值表(P439),P(|t|t#),P(tt#),t界值,t0.05/2,10=2.228,t0.025,10=2.228,双侧:P(t-t/2,)+P(tt/2,)=,单侧:P(t-t/2,)=/2 或 P(tt/2,)=/2,中间:P(-t/2, t t/2,)=1-,总体参数的估计,点估计:直接用样本统计量的值估计总体参数的值样本均数 估计总体均数 来自有代表性的样本样本量越大,估计的精度越高抽样误差客观存在总体参数和样本统计量之间总是存在一定差异,总体均数的估计,总体均数估计的两种方法点估计:是直接用样本均数估
8、计总体参数.区间估计:由于抽样误差的客观存在,因而按一定的概率1-,在一定分布基础上,估计总体均数所在的区间,并使得该区间包含总体均数的概率为1-该区间称为可信区间或置信区间(confidence interval)1-称为置信水平或置信度(confidence level),双侧:P(t-t/2,)+P(tt/2,)=,单侧:P(t-t/2,)=/2 或 P(tt/2,)=/2,中间:P(-t/2, t t/2,)=1-,样本均数的抽样分布,样本均数的抽样分布 经过转换已知未知未知,n足够大, 未知, 未知,但n足够大, 已知,1-可信区间的计算,1-可信区间的计算公式,例6.2,在某地成年
9、男子中随机抽取25人,测得其脉搏均数为72次/min,标准差为8次/min。试估计该地成年男性脉搏总体均数。根据样本信息,可推断该地成年男性脉搏总体均数:点估计值为72次/分95%可信区间为(68.7, 75.3)次/分,可信区间的两个要素,可信区间的两个要素,准确度:可信区间包含总体均数的可能性大小反映在置信度1-的大小上从准确度的角度看,愈接近1愈好如可信度99%比95%好精密度反映在可信区间的长度上长度愈小愈好,可信区间的两个要素,在抽样误差确定的情况下,二者是相互矛盾的若提高准确度,即提高可信度,可信区间势必增大,精密度下降若提高精密度,可信区间势必减小,即可信度下降,准确度下降一般情
10、况下,同时兼顾准确度与精密度,常用95%可信区间,总结,样本统计量与总体参数的差异抽样研究中难以避免的误差可用标准误度量其大小,说明样本均数与总体均数间关系的概率分布形式, 未知时,说明样本均数与总体均数关系的概率分布形式,2014国家医师资格考试大纲要求,课后习题,抽样研究的目的:利用获得样本信息,推断总体特征为了解大学生早餐前血糖水平,共对100名大学生进行了调查如何估计,=6.0mmol/Ls=1.5mmol/L,=6.0mmol/L,李亚超 公共卫生系流行病与卫生统计学教研室2018年6月8日星期五,假设检验,假设检验,在抽样前先对未知的总体作出一些假定;例如假定 并且正态总体的均数为
11、某已知数。我们把这类关于总体分布的假定称为假设抽样前所作的假设是否与实际相符合,可以用样本所提供的信息来检验,检验的方法与过程称为检验,例7.3设血红蛋白服从正态分布已知一般成年男子血红蛋白的均数为140g/L研究假设:随机抽取60名高原地区健康成年男性进行检查测得血红蛋白均数为155g/L,标准差为24g/L比较高原地区成年男性居民的平均血红蛋白是否高于一般正常成年男子,引例,引例, =? g/L,0=140g/L,0=140g/L,假设检验,x =155g/L,内容提要,抽样研究中,利用已知的样本信息,完成未知的总体分布间比较的过程首先对未知的总体做出某种假设参数检验:已知总体分布形式,对
12、总体参数提出假设非参数检验:对总体分布提出假设利用样本信息判断(检验)假设是否成立,假设检验(Hypothesis testing),内容提要,小概率反证法在一次研究或观察中,如果出现了假设成立情况下的小概率事件,由于推理过程是严密的,就只能认为假设不成立,应予拒绝或否定,并接受它的对立面,假设检验的基本思想,H0:A成立,小概率事件,在H0成立基础上推出有利于H1成立的小概率事件发生未发生小概率事件,不等于H0成立一般期望出现的结论应置于H1小概率事件不可能事件,假设检验可能犯错误统计学只是决策的参考,假设检验的基本思想,内容提要,建立检验假设,确定检验水准 选定检验方法,计算检验统计量 确
13、定P值,作出统计推断,假设检验的步骤,假设的分类H0:无效假设(null hypothesis)H1:备择假设(alternative hypothesis)假设的提出根据统计推断的目的:研究假设总体分布特征提出的一对相互对立的假设,1.建立检验假设,确定检验水准,H0: =140g/L,高原地区成年男子平均Hb量与一般人群相等H1: 140,高原地区成年男子平均Hb量高于一般人群=0.05,1.建立检验假设,确定检验水准,建立检验假设,确定检验水准,样本均数所代表的未知总体均数与已知总体均数0的比较中,单侧检验和双侧检验假设的形式,检验假设的形式,检验水准(significance leve
14、l),以表示是小概率事件在本次假设检验中发生概率水平在进行假设检验前设定习惯上取 =0.05或0.01,1.建立检验假设,确定检验水准,建立检验假设,确定检验水准 选定检验方法,计算检验统计量 确定P值,作出统计推断,假设检验的步骤,利用一次抽样获得的样本均数155g/L,完成量总体均数的比较,2.选定检验方法,计算检验统计量,H0: =0=140g/L,未知,n=60,x=155g/L,s=24g/L,建立检验假设,确定检验水准 选定检验方法,计算检验统计量 确定P值,作出统计推断,假设检验的步骤,3.确定P值,作出统计推断,自由度为59时的t分布曲线,0.05,|t|界值表(P316),3
15、.确定P值,作出统计推断,P =P(t 4.84),自由度为59时的t分布曲线,1.671,0.05,拒绝域,4.84,P :在H0所成立的条件下,获得现有样本统计量及比之更极端的概率,,在H0成立的条件下,未发生小概率事件,现有样本信息还不足以拒绝H0按=0.05水准,不拒绝H0,差异无统计学意义尚不能认为高原地区成年男子平均Hb量高于一般人群,确定P值,作出统计推断,确定P值,作出统计推断,须说明水准, 水准不同结论不同差异是否有统计学意义差异本身大小P,按=0.05水准,拒绝H0,接受H1,差异有统计学意义P,按=0.05水准,不拒绝H0,差异无统计学意义,确定P值,作出统计推断,结论不
16、能绝对化应针对分析目的作出结论P,可以认为+高原地区成年男子平均Hb量高于一般人群P,尚不能认为+高原地区成年男子平均Hb量高于一般人群,1.建立检验假设,确定检验水准H0: =0=140g/LH1: 0单侧 =0.052.选定检验方法,计算检验统计量3.确定P值,作出统计推断查附表3,得P 140g/L,140g/L,检验效能,H0: =0=140g/L,错误:假设检验结果与客观事实相违背,假设检验中犯错误的概率,客观实际,假设检验结果,犯错误的概率为,一般未知,犯错误的概率为,推断正确,型错误,型错误,推断正确,推断正确的概率为1-,推断正确的概率为1-(检验效能, Power),结论不能
17、绝对化P,拒绝H0,接受H1,可能犯型错误差异有统计学意义,可以认为不同总体间存在差异差异有统计学意义,避免使用差异具有显著性统计学意义和专业意义的区别P,不拒绝H0差异无统计学意义,尚不能认为不同总体间存在差异接受H0,可能犯型错误,两类错误与结论,内容提要,调整水准多重假设检验(multiple hypothesis testing):m个单次假设检验作为一个整体,只要有一次检验有统计学意义即可接受全局备择假设常见于多组检验、多指标检验累积型错误概率Bonferroni校正,型错误的控制,的影响因素,1. , ,的影响因素,1. , ,2. , ,的影响因素,1. , ,2. , ,3.
18、X , ,X=,n,, ,, ,错误:假设检验结果与客观事实相违背,假设检验中犯错误的概率,1. , ,2. , ,3. , ,4. n , ,客观实际,假设检验结果,犯错误的概率为,一般未知,犯错误的概率为,推断正确,型错误,型错误,推断正确,推断正确的概率为1-,推断正确的概率为1-(检验效能, Power),调整水准:提高到0.1或0.2主要针对需要接受H0的情况正态性检验方差齐性检验增大样本例数,型错误的控制,假设检验需要注意的问题,数据应来自设计科学的实验或调查样本的代表性可比性/均衡性:比较的基础数据应该满足假设检验方法的前提条件 正确理解假设检验中概率值的含义差异有统计学意义与差
19、异大小的区别结论不能绝对化统计学意义和专业意义的区别,总结,抽样研究中,利用已知的样本信息,完成未知的总体分布间比较的过程,小概率反证法,1.建立检验假设,确定检验水准 2.选定检验方法,计算检验统计量 3.确定P值,作出统计推断,假设检验推断结果与事实不符P时可能发生型错误,概率为P时可能发生型错误,概率为,某人对成都市正常成年人的血糖进行了抽样调查,假设检验发现男性与女性血糖的差异有统计学意义(P),而专业上认为性别对正常成年人的血糖没有影响。应如何理解该结果?有人认为与其样本含量过大有关,你是否认同?思考:为何本例H0: =0=140g/L可以省略小于号?,课后思考题,课后作业,为说明A、B两药治疗缺铁性贫血的效果,将18名某病患者随机分成两组,分别用药物A或药物B治疗,同步观察治疗前后血色素变化,结果见表7-1若定义差值11g/L为有效,试说明A药是否有效,表7-1 贫血患者经A、B两药治疗前后血色素的变化结果(g/L),