1、第7章 假设检验,孔丹莉,2,乙酰胆碱酯酶抑制剂,抗氧化剂,抗炎药物,钙通道阻滞剂,3,乙酰胆碱酯酶抑制剂,抗氧化剂,抗炎药物,钙通道阻滞剂, 假设检验,假设检验是统计推断的另一重要内容。正是应用统计推断的理论和方法,人们才能顺利地通过有限的样本信息去把握总体特征,实现抽样研究的目的。,4,抗氧化剂, 假设检验,假设检验是先对总体的参数(或分布形式)提出某种假设(根据研究问题的需要提出原假设H0和备择假设H1) ,然后利用样本信息判断假设是否成立的一种统计方法。,如果拒绝H0 ,认为该样本很可能不是来自同一总体(总体之间有差异);否则,认为该样本很可能来自同一总体(总体之间无差异)。, 原假设
2、(零假设,记为H0) 备择假设(记为H1), 假设检验,检验假设针对总体,而非针对样本H0 和 H1 是相互联系、对立的假设,缺一不可H0通常为:总体服从于某种分布、两个或多个总体参数相等、两个或多个总体分布相同等 H1通常为:总体不服从于某种分布、两个或多个总体参数不等或不全相等、两个或多个总体分布不同或不全相同等, 假设检验,7,抗氧化剂, 假设检验,证明A还是证明B?在H0成立的条件下,均数之间的差异是由抽样误差引起的,有规律可循;在H1成立的条件下,均数间的不同包含种种未知情形,无规律可循。故从H0成立的角度出发,寻求其成立的概率。,P值是指在H0所规定的总体中作随机抽样,获得等于及大
3、于(或小于)现有统计量(如t值)的概率。,主要内容,第一节 假设检验的基本思想及步骤,1、假设检验的基本思想,假设检验是利用小概率反证法思想,从问题的对立面(H0)出发间接判断要解决的问题(H1)是否成立。然后在H0成立的条件下计算检验统计量,最后获得P值来判断。,Hypothesis Testing,Health Statistics,Hypothesis Testing,11,Health Statistics,Hypothesis Testing,Health Statistics,女士品茶全名The Lady Tasting TeaHow Statistics Revolutioniz
4、ed Science in the Twentieth Century 女士品茶20世纪统计学怎样变革了科学。是美国统计学家萨尔斯伯格以“女士品茶问题”为切入点所著的一部关于统计学历史与变革的书,以一种全新的视角带领读者进入统计学的世界,体会统计学带给哲学观、宇宙观的变革。,Hypothesis Testing,Health Statistics,在英国剑桥一个夏日的午后,一群大学的绅士和他们的夫人们,还有来访者,正围坐在户外的桌旁,享用着下午茶。在品茶过程中,一位女士坚称:把茶加进奶里,或把奶加进茶里,不同的做法,会使茶的味道品起来不同。在场的一帮科学精英们,对这位女士的“胡言乱语”嗤之以鼻
5、。这怎么可能呢?他们不能想象,仅仅因为加茶加奶的先后顺序不同,茶就会发生不同的化学反应。,Hypothesis Testing,Health Statistics,然而,在座的一个身材矮小、戴着厚眼镜、下巴上蓄着的短尖髯开始变灰的先生,却不这么看,他对这个问题很感兴趣。他兴奋地说道:“让我们来检验这个命题吧!”并开始策划一个实验。在实验中,坚持茶有不同味道的那位女士被奉上一连串的已经调制好的茶,其中,有的是先加茶后加奶制成的,有的则是先加奶后加茶制成的。,Hypothesis Testing,Health Statistics,接下来,在场的许多人都热心地加入到实验中来。几分钟内,他们在那位女
6、士看不见的地方调制出不同类型的茶来。最后,在决战来临的气氛中,蓄短胡须的先生为那位女士奉上第一杯茶,女士品了一小会儿,然后断言这一杯是先倒的茶后加的奶。 这位先生不加评论地记下了女士的说法,然后,又奉上了第二杯,Hypothesis Testing,Health Statistics,假设我们要检验一位女士能否品尝出两杯茶的不同:是把牛奶倒进了茶水里,还是把茶水倒进牛奶里。我们给她两杯茶,告诉她一杯是茶水倒入牛奶里,另一杯是牛奶倒入茶水中。她尝了尝,正确区别开了这两杯茶。有可能她是凭猜测,猜对的机会是一半对一半。我们再给她同样的这样两杯茶,她又说对了。如果她仅仅靠猜测,那么连续两次都猜对的机会
7、是四分之一。,Hypothesis Testing,Health Statistics,如果我们再给她两杯茶,假如她仍然能正确地分辨出来。若这人结果完全是猜出来的,此时猜对的机率则只有八分之一。我们继续两杯两杯地让她品尝更多杯茶,而她依然每次都能够正确地识别出来。某种意义上,我们就不得不相信她真的能品尝出其中的差别了。,Hypothesis Testing,Health Statistics,假定她说错了一次,假定说错的这一次就发生在第24组,而其他的全对,那么我们能否依然认为她真的有分辨不同奶茶的能力呢?假如她的错误是二十四分之四呢?或是二十四分之五呢?,Hypothesis Testing
8、,Health Statistics,假设检验(显著性检验)是一种正规的统计方法,是在“待检验的假设为真”的假设前提下用来计算以往观测到的结果发生的概率。当观测结果发生的概率很低时,我们得出原假设不成立的结论。重要的一点是,假设检验提供了一种拒绝某个假设的工具。上述例子中,待检验的假设是:那位女士只是凭猜测。,Hypothesis Testing,Health Statistics,设计实验时的问题是,如果只给那位女士一杯茶,那么即使她没有区分能力,她也有50%的机会猜对。如果给两杯茶,她仍可能猜对。事实上,如果她知道两杯茶分别以不同的方式调制,她可能一下子全部猜对(或全部猜错)。,Hypot
9、hesis Testing,Health Statistics,同样,即便这位女士能做出区分,她仍然有猜错的可能。或者是其中的一杯与奶没有充分地混合,或者是泡制时茶水不够热。即便这位女士能做出区分,也很有可能是奉上了10杯茶,她却只是猜对了其中的9杯。,Hypothesis Testing,Health Statistics,是奶加到茶里,还是茶加到奶里?,假设:她没有这种分辨能力,是碰巧猜对的!1次实验,正确,结论? 0.52次实验,正确,结论? 0.52=0.255次实验,正确,结论? 0.55=0.0312510次实验,正确,结论? 0.510=0.0009765625P0.05为小概率
10、事件她真的有这种能力!,Hypothesis Testing,22,Health Statistics,Hypothesis Testing,Health Statistics,复习两个概念,频率 relative frequency,概率 probability,24,乙酰胆碱酯酶抑制剂,抗氧化剂,抗炎药物,钙通道阻滞剂,频率 relative frequency,频率(relative frequency) :是指样本的实际发生率。设在相同条件下,独立重复进行n次试验,事件A出现 m 次,则事件A出现的频率为m/n 一次随机试验有几种可能结果,在重复进行试验时,个别结果看来是偶然发生的,但
11、当重复试验次数相当多时,将显现某种规律性。,25,乙酰胆碱酯酶抑制剂,抗氧化剂,抗炎药物,钙通道阻滞剂,频率 relative frequency,例如,投掷一枚硬币,结果不外乎出现“正面”与“反面”两种。假设硬币是均匀的,你觉得正面朝上的概率是多大?现在,我们看一个掷币模拟试验:,26,乙酰胆碱酯酶抑制剂,抗氧化剂,抗炎药物,钙通道阻滞剂,频率 relative frequency,Hu Pingcheng 1 1 1.0000Hu Pingcheng 2 0 0.0000 Hu Pingcheng 3 2 0.6667Hu Pingcheng 4 3 0.7500Hu Pingcheng
12、5 3 0.6000Hu Pingcheng 6 2 0.4000Hu Pingcheng 7 4 0.5714 Buffon 4040 2048 0.5069K.Pearson 12000 6019 0.5016K.Pearson 24000 12012 0.5005,实验者 投掷次数 出现“正面”次数 频率,27,乙酰胆碱酯酶抑制剂,抗氧化剂,抗炎药物,钙通道阻滞剂,可见,在相同条件下重复试验,试验结果为“正面”或“反面”虽不能事先断定,但我们知道试验的所有可能结果只有两种。在重复多次后,出现“正面” 或“反面”这个结果的比例称之为频率。在实际工作中,当观察单位的例数足够多时,可以用频率来
13、代替概率。频率是概率的估计值。频率是就样本而言的,而概率从总体的意义上说的,m/n是概率 P(A)的估计值。试验次数越多,估计越可靠。,28,乙酰胆碱酯酶抑制剂,抗氧化剂,抗炎药物,钙通道阻滞剂,概率 probability,概率(probability) :是指某事件发生的可能性大小常用 P 表示 。A事件发生的概率记为P(A) 。 若P(A)=0,则称A事件为不可能事件 若P(A)=1,则称A事件为必然事件 若0P(A)1,则称A事件为随机事件 若P(A)0.05,则称A事件为小概率事件,表示在一次实验或观察中该事件发生的可能性很小,可以视为很可能不发生,29,乙酰胆碱酯酶抑制剂,抗氧化剂
14、,抗炎药物,钙通道阻滞剂,概率 probability,南粤风采:中奖概率大约为: 1/671万交通事故:发生概率为: 1/20万,Hypothesis Testing,Health Statistics,红楼梦中的掷骰子:,Hypothesis Testing,30,Health Statistics,在红楼梦第六十三回“寿怡红群芳开夜宴死金丹独艳理亲丧”中宝玉过生日,晚上请来了林黛玉、史湘云、薛宝钗、李纨、探春、薛宝琴等在怡红院玩骰子抽签的游戏。大家围成一圈,按照摇出骰子的点数数到谁,谁就从签筒中抽出一签,按照签上要求或罚作诗,或罚喝酒。按照电视连续剧红楼梦编剧周雷的考证。,开始时,由晴雯
15、第一个摇装有四个骰子的罐儿。摇毕一看,是为5点,即3个1点和1个2点。然后,由摇骰子本人晴雯算起,按逆时针方向数至第5人是宝钗。由宝钗抽签、再摇、再数依次类推。见表1:,Hypothesis Testing,Health Statistics,Hypothesis Testing,33,Health Statistics,大观园群芳掷骰子顺序、点数表,表2掷四颗骰子点数的分布律,表2掷四颗骰子点数的分布律,我们看到,晴雯、宝钗等共摇了八次,竟然有六次结果是小于百分之五(0.05)的小概率是事件。特别是晴雯和香菱分别摇出了概率为.0031和0.0077的5点和6点。这种小概率时间对于单独的一次来
16、说,是不可能发生的。对于总共只有八次的情况,出现的概率应该说是很小的。那么是否应怀疑所摇的骰子中有假呢?这个可能性也应该排除 ,因为曹雪芹书中并未作此交待,况且宝玉他们仅仅是摇骰子做游戏而并非赌博,并无作假的必要。那么出现这种小概率事件应作何解释?,Hypothesis Testing,Health Statistics,曹雪芹写这回时是事先确定了每一轮的人选,并为他们设计了签子及诗句,以作为此人命运的写照和伏笔,再按照座次人物的顺序人为地确定摇出的点数八次结果有六次为小概率事件,其中晴雯的五点和香菱的六点发生的概率分别为0.0031和0.0077,点数有些离谱!,Hypothesis Tes
17、ting,37,Health Statistics,因而,我们可以推测曹雪芹写这回时是先确定了每一轮的人选后,再按照座次人物的顺序人为地确定摇出的点数。如果曹雪芹有一些概率分布的知识,他就会合理安排人物的顺序而给出合理的点数,即不使这样的小概率事件发生。由此我们的结论就是:曹雪芹不了解概率分布,不太懂摇骰子中的概率理论。,概率的频数定义,1872年,英国哲学家约翰维恩(John Venn)提出了一个数学概率的公式。这个公式使得概率在现实生活中有了含义。他把一个重要的概率定理转了一个方向,这个定理就是大数定律(law of large numbers)。大数定律指出,如果某事件有给定的概率(比如
18、掷一个骰子,得到六点这一事件的概率是六分之一),而且如果我们重复地进行相同的试验时,该事件发生的次数的比率就会越来越接近这个概率值。,费歇尔利用显著性检验产生了一个他称为P值的数字。这是一个计算出来的概率,是在零假设为真假定下,与观测数据有关联的一个概率。例如,假定我们要检验一种新药,对做过乳房切除手术的妇女来说,这种药可以防止乳腺癌的复发。我们把这种药的效果与一种安慰剂作比较。此时的零假设(那个稻草人)就是,该新药不比安慰剂好。现在,假定5年之后,用安慰剂的妇女有一半乳腺癌复发,但用新药的完全没有复发,这样能证明新药“有效”吗?答案当然得看这个50%代表多少病人。,如果在这项研究中,两组各仅
19、有4名病人,也就是总共有8名病人,而其中2人在5年后复发。假定我们任选一个8人团体,把其中两人做上标记,接着把人随机分成两组,每组4人,那么做标记的两个被分在同一组的概率大约是0.30.因此,如果每组只有4名妇女,“所有复发的妇女都落在安慰剂组”是不显著的。如果该项研究中每一组包含500名妇女,且乳腺癌复发的所有250名妇女都落在安慰剂姐,这是极度不可能的,除非新药真的有效。如果新药并不比安慰剂有效,这250名妇女都落在同一组的概率就是P值,计算出来的结果将小于0.0001。,42,乙酰胆碱酯酶抑制剂,抗氧化剂,抗炎药物,钙通道阻滞剂,反证法 probability,哪一个盒子?,Hypoth
20、esis Testing,现从两个盒子中随机取出一个,问这个盒子里是99个白球还是99个红球?,Hypothesis Testing,Health Statistics,假设:这个盒子里有99个白球!现从中随机摸出一个球,发现是红球,此时应如何下结论?,Hypothesis Testing,如果盒中有99个白球,摸出红球的概率只有1/100,这是小概率事件小概率事件在一次实验中发生的可能性很小或可认为不发生现在竟然发生了,从而怀疑所作假设的真实性,认为该盒中所装的为99个红球,Hypothesis Testing,46,Health Statistics,“反证法”先将要证明的结论假设为不正确
21、 的,作为进一步推论的条件之一使用,最后推出矛盾的结果,以此否定事先所作的假设。反证法所认为矛盾的结论,也就是不可能发生的事件,这种事件发生的概率为零,该事件是不能接受的现实。 其实,我们在日常生活中,不仅不肯接受概率为0的事件,而且对小概率事件,也持否定态度。比如,虽然偶尔也有媒体报导陨石降落的消息,但人们不必担心天空降落的陨石会砸伤自己。,反证法 probability,推理方法:带概率性质的反证法,小概率反证法与一般反证法相比,有相同也有不同思路相同,但一般反证法所得结论是绝对成立的,而小概率反证法所得结论具有概率性质,即可能正确也可能犯错误,Hypothesis Testing,统计假
22、设通过实际观察或理论分析对总体分布形式 或对总体分布形式中的某些参数作出某种 假设。,假设检验根据问题的要求提出假设,构造适当的统 计量,按照样本提供的信息,以及一定的 规则,对假设的正确性进行判断。,基本原则小概率事件在一次试验中是不可能发生的。,小 结,基本思想,参数的假设检验:已知总体的分布类型,对分布函数或密度函数中的某些参数提出假设,并检验。,基本原则小概率事件在一次试验中是不可能发生的。,思想:如果原假设成立,那么某个分布已知的统计量在某个区域内取值的概率应该较小,如果样本的观测数值落在这个小概率区域内,则原假设不正确,所以,拒绝原假设;否则,接受原假设。,拒绝域,称 水准,是预先
23、规定的概率值,它确定了小概率事件的标准。实际工作中常取 = 0.05,检验水平,小概率区域,按小概率原理应该拒绝原假设,假设检验就是根据样本对所提出的假设作出判断:是接受,还是拒绝。,在给定备择假设H1下,利用样本对原假设H0作出判断,若拒绝原假设H0,那就意味着接受备择假设H1,否则,就接受原假设H0。 换句话说,假设检验就是要在原假设H0和备择假设H1中作出拒绝哪一个和接受哪一个的判断。究竟如何作出判断呢?对一个统计假设进行检验的依据是所谓小概率原理,即概率很小的事件在一次试验中是几乎不可能发生 ,这种事件称为“实际不可能事件”。,问题实质上都是希望通过样本统计量与总体参数的差别,或两个样
24、本统计量的差别,来推断总体参数是否不同。这种识别的过程,就是本章介绍的假设检验(hypothesis test)。,为了解某地1岁婴儿的血红蛋白浓度,某医生从该地随机抽取了1岁婴儿25名,测得其血红蛋白浓度的平均数为123.5g/L,标准差为11.6 g/L,而一般正常小儿的平均血红蛋白浓度为125 g/L,故认为该地1岁婴儿的平均血红蛋白浓度低于一般正常小儿的平均血红蛋白浓度。,Hypothesis Testing,【例7-1】,【问题7-1】(1)该结论是否正确?为什么?(2)如何解决此类问题?,Hypothesis Testing,Hypothesis Testing,抽样误差造成,确有
25、差别,Hypothesis Testing,56,Health Statistics,并不知道该地1岁婴儿总体和一般婴儿总体是否为同一个总体,Hypothesis Testing,Health Statistics,假设检验的基本思想,假设=0在假设成立条件下,得到现在结果或更极端结果的可能性有多大?如果可能性很小(小概率事件),在一次试验中本不该得到,现在居然得到了,说明我们的假设有问题,拒绝之;如果有可能得到现在的结果,故根据现有的样本无法拒绝事先的假设(没理由拒绝原来的假设),Hypothesis Testing,57,Health Statistics,Hypothesis Testi
26、ng,Health Statistics,Hypothesis Testing,58,Health Statistics,Hypothesis Testing,Health Statistics,Hypothesis Testing,59,Health Statistics,常未知,,建立检验假设,确定检验水准,确定P值,计算检验统计量,作推断结论,假设检验步骤,假设检验的基本步骤,建立检验假设,确定检验水准 原假设(零假设,记为H0) 备择假设(记为H1),Hypothesis Testing, = 0.05,Hypothesis Testing,检验假设针对总体,而非针对样本H0 和 H1
27、 是相互联系、对立的假设,缺一不可H0通常为:总体服从于某种分布、两个或多个总体参数相等、两个或多个总体分布相同等 H1通常为:总体不服从于某种分布、两个或多个总体参数不等或不全相等、两个或多个总体分布不同或不全相同等,H1 的内容反映了检验的单双侧。若 H1 为 0 或 时,表示在H0成立的条件下,出现等于及大于现有统计量的概率不是小概率,现有样本信息还不能拒绝H0,结论为按所取检验水准不拒绝H0,差异无统计意义,若检验统计量现有统计量,则P,结论为按所取的 检验水准 ,拒绝 H 0,接受H1,有统计学意义(统计结论)。可认为不同或不等(专业结论) 若检验统计量现有统计量,则P,结论为按 检
28、验水准 ,不拒绝 H 0,无统计学意义(统计结论)。尚不能认为不同或不等(专业结论),一般来说,推断结论应包括统计结论与专业结论两部分P ,按 水准,拒绝 H0 ,接受 H1 ,差异有统计学意义(统计结论),可认为不同或不等(专业结论)P ,按 水准,不拒绝H0 ,差异无统计学意义,尚不能认为不同或不等,Hypothesis Testing,小结,假设检验处理的是有关总体的假设假设检验要判断的是样本数据是否提供了不利于假设的证据如果假设成立时很少会发生的结果发生了,就是假设不成立的证据!用概率来衡量证据的强度,概率越小拒绝原假设的证据越强,Hypothesis Testing,Health S
29、tatistics,第二节 型错误与型错误,第类错误(type I error): 当原假设H0为真时,却作出拒绝H0的判断,通常称之为弃真错误,由于样本的随机性,犯这类错误的可能性是不可避免的。若将犯这一类错误的概率记为,则有P拒绝H0|H0为真=。,第类错误(type II error): 当原假设H0不成立时,却作出接受H0的决定,这类错误称之为取伪错误,这类错误同样是不可避免的。若将犯这类错误的概率记为,则有P接受H0|H0为假= 。,假设检验中两类错误,Hypothesis Testing,Health Statistics,I型错误和II型错误,法官的审判如法官判定一个人是否犯罪,
30、首先是假定他“无罪”(H0),然后通过侦察寻找证据,如果证据充分则拒绝 “无罪”的假定(H0),判嫌疑人有罪;否则只能暂且认为“无罪”的假定(H0)成立,Hypothesis Testing,Health Statistics,Hypothesis Testing,Health Statistics,法官的审判,按照法律,在证明被告有罪之前应先假定他是无罪的。也就是原假设是 :被告无罪;备选假设 :被告有罪。法庭可能犯的第一类错误是:被告无罪但判他有罪;第二类错误是:被告有罪但判他无罪。犯第一类错误的性质是“冤枉了好人”,第二类错误的性质是“放过了坏人”。为了减小“冤枉好人”的概率,应尽可能接
31、受原假设,判被告无罪,这就有可能增大了“放过坏人”的概率;,反过来,为了不“放过坏人”,增大拒绝原假设的概率,相应地就又增加了“冤枉好人”的可能性,这就是与的关系。当然,这只是在“一定的证据下”的两难选择。如果进一步收集有关的证据,在充分的证据下,就有可能做到既不冤枉好人,又不放过坏人。在现有证据不充分的条件下,法庭控制两类错误概率的实践是:按案件的性质决定首先要控制哪一类错误的概率,如果案件将来对社会危害大,就要控制少犯第二类错误的概率,免得放过的坏人继续危害社会;如果案件对社会没有什么大的危害,不妨“放他一马”,免得冤枉了好人,影响当事人“一生的前程”。,Health Statistics
32、,自然,我们希望一个假设检验所作的判断犯这两类错误的概率都很小。事实上,在样本容量n固定的情况下,这一点是办不到的。因为当减小时,就增大;反之,当减小时,就增大。,I型错误和II型错误的关系,那么,如何处理这一问题呢? 事实上,在处理实际问题中,对原假设H0,我们都是经过充分考虑的情况下建立的,或者认为犯弃真错误会造成严重的后果。在H0与H1之间,我们主观上往往倾向于保护H0,即H0确实成立时,作出拒绝H0的概率应是一个很小的正数当n固定时, 增大, 减小;反之亦然若欲同时减小与 ,则只有增大样本含量,检验效能,1 称为检验效能或把握度(power of a test),其统计学意义是若两总体
33、确有差别,按水准能检出其差别的能力如1- =0.90,意味着若两总体确有差别,则理论上在100次检验中,平均有90次能够得出有统计学意义的结论,Hypothesis Testing,Health Statistics,检验效果好与坏,与犯两类错误的概率都有关。一个有效的检验首先是犯第一类错误的概率不能太大,否则的话,就经常产生弃真现象;另外,错误就是取伪的错误,在犯第一类错误概率得到控制的条件下,犯取伪错误的概率也要尽可能地小,或者说,不取伪的概率1-应尽可能增大。,检验效能,1-越大,意味着当原假设不真实时,检验判断出原假设不真实的概率越大,检验的判别能力就越好;1-越小,意味着当原假设不真
34、实时,检验结论判断出原假设不真实的概率越小,检验的判别能力就越差。可见1-是反映统计检验判别能力大小的重要标志,我们称之为检验功效或检验力。,检验效能,第一类错误和第二类错误是一对矛盾体,在其他条件不变时,减小犯第一类错误的可能性,势必增加犯第二类错误的可能性;增大第一类错误的可能性,又能减小犯第二类错误的可能性。可见的大小,影响到的大小,进而影响到1-的大小。犯第一类错误的概率或检验的显著性水平是影响检验力的一个重要因素。在其他条件不变下,显著性水平增大,随之减小,检验功效就增强。可见取=0.1时比取=0.01时,检验的功效强,检验力大。,在统计检验中,一般都是首先控制犯第一类错误的概率,也
35、就是显著性水平都尽量取较小的值,尽量避免犯弃真的错误,在其他条件不变时,就增大,检验的功效就减弱。该如何来调和这一对相互对抗的矛盾呢?惟一的办法就是增大样本容量 然而,实际上样本容量n的增加也是有限制的,兼顾与很困难,这时,鉴于风险一般比风险重要,首先考虑的还是控制风险。,影响检验效能的因素:两总体参数的真实差异总体标准差 I型错误样本含量n,Hypothesis Testing,89,Health Statistics,第三节 单侧检验与双侧检验,单侧检验与双侧检验,双侧检验H0 : 12H1 : 12单侧检验H0 : 12 H0 : 12H1 : 1 2 H1 : 1 若选择单侧检验是恰当
36、的,显然其检验效能高于双侧检验;若误用单侧检验较容易犯I型错误;若误用双侧检验较容易犯II型错误,Hypothesis Testing,单侧检验与双侧检验的关系,假设检验的单、双侧与检验中涉及的单、双尾面积既有密切联系, 又有不同的涵义, 尤其要注意它们之间在各方法中固有的对应关系单、双侧检验与单、双尾面积符合一致的情况只存在于某些方法(如z检验法、t 检验法等) , 并非广泛存在双侧检验对应单尾面积(方差分析、卡方检验);方差齐性检验对应特殊的“双尾”面积, ,“双尾” 非但不对称, 而且分属于两条不同的F 分布曲线,Hypothesis Testing,Health Statistics,
37、单、双侧检验与单、双尾面积,检验的单双侧必须依据专业知识和研究目的在设计时确定,而不能在确定P值时主观选择,Hypothesis Testing,96,单侧检验与双侧检验的选择,第四节 假设检验应注意的问题,Hypothesis Testing,Health Statistics,Hypothesis Testing,应有严密的研究设计同质总体随机抽样组间可比性,Hypothesis Testing,正确理解检验水准 和P值的意义P值是指从H0总体中随机抽样,获得等于或大于(等于或小于)现有统计量值的概率。从另一个角度讲,P值反映了实际观测到的数据与 H0之间不一致的程度,P值越小,说明实际观
38、测到的数据与H0之间不一致的程度越大,越有理由拒绝H0拒绝H0时所冒的风险,Hypothesis Testing,Health Statistics,在假设检验之前人为规定犯第一类错误的概率,说明拒绝H0所冒的风险不可超过,Hypothesis Testing,Health Statistics,正确理解结论的统计学意义 差异有统计学意义是指样本统计量之间的差值并非仅由抽样误差所偶然获得,而是由本质差别造成的,故被推断的两总体参数有差别,至于其差值幅度算不算大,是否“明显”或“更显著”等结论性的判断,完全属于专业方面的分析,假设检验本身得不出此结论,Hypothesis Testing,Hea
39、lth Statistics,差异尚无统计学意义是指样本统计量之间的差值仅由抽样误差所偶然获得的可能性较大,故尚不能认为被推断的两总体参数有差别。但不应误解为差别不大或肯定无差别有统计学意义并不等于有实际临床意义,还应结合专业知识来分析,Hypothesis Testing,假设检验的结论不能绝对化统计结论的概率性:无论做出何种推断结论,总是有风险的!尤其是检验统计量位于检验界值的附近时,下结论更应慎重统计学已证明由此可以肯定,Hypothesis Testing,第五节 假设检验与区间估计的联系,假设检验与区间估计的区别与联系,Hypothesis Testing,可信区间,即按预先给定的概
40、率确定的包含未知总体参数的可能范围。该范围称为总体参数的可信区间,如果能够进行重复抽样试验,平均有1-的可信区间包含了总体均数。,如:当=0.05 时,95%可信区间指进行 100 次抽样可算得100个可信区间,其中有95 个可信区间包含总体参数,而有5个不包含总 体参数。,当,时,称为95%可信区间,,当 时, 称为99%可信区间,记作99%CI,记作95%CI,可信区间估计的优劣:,一定要同时从可信度(即1-的大小)与区间的宽度两方面来衡量。,可信区间的两个要素:,准确度:反映在可信度(1-)的大小,即 可信区间包含的慨率的大小,愈 接近1愈好,精密度:反映在可信区间的宽度上,宽度愈小 精密度愈高。(常用95%可信区间),假设检验与区间估计的区别与联系,可信区间用于说明量的大小,即推断总体均数的范围假设检验用于推断质的不同,即判断两总体均数是否不同,Hypothesis Testing,可信区间亦可回答假设检验的问题可信区间包含H0,按水准,不拒绝H0;若不包含H0,则按水准,拒绝H0,接受H1可信区间比假设检验可提供更多的信息可信区间不但能回答差别有无统计学意义,而且还能提示差别有无实际的专业意义,Hypothesis Testing,Health Statistics,谢谢大家,