1、2010.1039 CHINA STATISTICS最大似然法费歇 (R A Fisher) 是数理统计的集大成者, 有研究数理统计发展史的学者甚至认为, 费歇出生的那一天是数理统计学的生日。 虽然有点个人崇拜的味道, 但这至少表明了他绝不可等闲视之的学术地位。最大似然法 ( the method of maxi-mum likelihood ) 也称极大似然法, 它是参数估计的一种非常重要的方法。 该方法最早由高斯所提出, 后来由英国统计学家费歇于 1912 年在其一篇文章中重新提出, 并且证明了这个方法的一些性质。 最大似然估计这一名称也是费歇给的, 它是建立在最大似然原理的基础上的一个统
2、计方法。 为了对最大似然原理有一个直观的认识, 我们先来看一个例子。设有外形完全相同的两个箱子, 甲箱有 99 个白球 1 个黑球, 乙箱有 1 个白球 99 个黑球。 今随机地抽取一箱, 然后再从这箱中任取一球, 结果发现是白球。 问这个箱子是甲箱还是乙箱 ?注意我们这里做的是统计推断而不是逻辑推断。 所谓统计推断, 就是根据已知的部分数据对总体进行估计的一种推断方法。 从部分推断总体, 必然伴随着一定的犯错误的概率。 因此从逻辑上认起死理来, 统计推断似乎因为不太严谨而被排斥在 “科学推断” 之外了。漫 谈 统计思想 :最大似然法和显著性检验但是在实际生活中, 如果都要按照逻辑推断来思考,
3、 那么将会给你的生活带来很大的麻烦。 比如出门, 则难免会有一定的概率发生 “意外”, 因此所谓“安全回家” 在逻辑上便不再是绝对可靠的, 故而你只能选择闭门不出。回到刚才的例子。现在的问题是, 仅仅从取出的球是白球这一点是无法从逻辑上严格加以判定该箱究竟是甲箱还是乙箱的。 但是如果现在一定要我们做出选择, 那么我们只能这样来考虑 : 从箱中取出的球是白球这一点来看, 甲箱和乙箱哪个看上去更像是真正从中取球的箱子?我们这样来分析 : 如果该箱是甲箱, 则取得白球的概率为 0.99 ; 如果该箱是乙箱, 则取得白球的概率 0.01 。 因此, 用 “该箱是甲箱” 来解释所取的球是白球这一事件更有
4、说服力一些, 从而我们判定甲箱比乙箱更像一些。 最后我们做出推断, 这球是从甲箱取出的。其实, 如果我们从 “最大似然” 的原文 “ Maximum likelihood ” 来看, 就会发现这个名称的原始含义就是 “看起来最像” 的意思。“看起来最像”, 在很多情况下其实就是我们决策时的依据。一个总体往往都有若干个重要的参数。 比如, 对于正态总体来说, 均值和方差就是两个非常重要的参数。 但是在很多情况下, 这些参数往往是不知道的, 这就需要我们利用抽样所得的部分数据来做统计推断。假设我们现在获得了一组数据, 记为 x , 我们需要做的是, 利用 x 中所包含的信息来推断总体中的未知参数值
5、。显然, 未知参数是有其取值的范围的,我们现在要做的是, 在参数可能的取值范围内寻找到一个 “看起来最像” 的那个值来作为未知参数的估计值。那么, 在这里 “看起来最像” 的直观含义是什么呢?现在, 假设有甲乙两支足球队要进行比赛, 某人很认真地看了这两支足球队的相关资料, 并作了细致的分析,得出了甲队战胜乙队的概率为 p 。 但是在第二天被朋友问及此事时, 他一时犯昏把数字给记混了。 他只知道甲队战胜乙队的概率 p 只可能取如下几个值 :0 , 0.1 , 0.3 , 0.5 , 0.75 , 0.9 , 但一点也记不清到底哪个数字才是真实的。 也就是说, 在这个时候, 这五个数字没有哪一个
6、看上去比其他数字更像是真实的 p 。 于是他开始翻看随身携带的一些资料, 发现与这两支足球队有关的资料只有一条, 这就是他们在某日的比赛中以平局收场。看完这条资料以后, 这个人再来看以上这六个数字时, 发现 0.5 看起来最像, 因为用 0.5 最好地解释了刚才看到的文 / 龚小庆 浦国华STATISTICS IN DAILY LIFE生活中的统计学40 CHINA STATISTICS2010.10资料。如果他看到的资料中说甲队在某日的比赛中战胜了乙队, 那么此时 0.9 将是看起来最像的。因此, “看起来最像” 实际上是指“与实际数据最吻合” 或者 “最好地解释了实际数据”。将以上的想法抽
7、象到数学的层面,就得到了最大似然法的数学理论。数理统计是数学的一个分支, 所使用的数学工具比较高级且显得比较抽象, 但是从我们以上的分析来看, 它所基于的最基本的思想仍然是来源于我们现实生活中的一些很常见的推断法则,只不过在很多的时候我们在以这样的法则做出推断时并没被我们意识到而已。显著性检验先从 2006 年 2 月 16 日的一则新闻说起 :据路透社最新报道 : 国际奥委会委员、 世界反兴奋剂机构主席庞德当地时间 2 月 16 日公开表示, 在都灵冬奥会开幕之前被确定血红蛋白超标的 12 名滑雪运动员一定是服用了兴奋剂。据路透社援引庞德的话说 : “坦率地说, 我们认为我们是在处理兴奋剂事
8、件, 因为在冬季奥运会之前, 很碰巧地有 12 人血红蛋白超标。”从上面这一则新闻中, 我们可以读出两点 :( 1 ) 庞德认为 : “在都灵冬奥会开幕之前被确定血红蛋白超标的 12 名滑雪运动员一定是服用了兴奋剂”。庞德的语气非常肯定。 那么所基于的理由是什么呢?这就是我们读出的第二点。( 2 ) 因为在冬季奥运会之前, 很碰巧地有 12 人血红蛋白超标。”这里庞德用了 “碰巧” 这两个字,并且以此作为最后结论的根据。但是我们仔细地分析就会发现, 庞德的结论下得有点武断, 在逻辑上存在着漏洞。 我们会问这样一个问题 : 为什么就不能这么碰巧呢?或者 : 难道很碰巧的事情就不会发生吗?这就涉及
9、到统计推断的另一种形式 : 显著性检验。庞德的推理过程实际上是以如下的方式进行的。首先假设这 12 名运动员没有服用兴奋剂, 然后在这个前提下计算这 12 名运动员血红蛋白全部超标的可能性有多大。 据另一篇相关报道中说, 庞德计算出来的这个概率为万分之三。我们知道, 万分之三是一个极小的概率, 于是根据实际推断原理, 小概率事件在一次试验中是不会发生的, 而现在居然发生了, 那只能说明推出这个小概率的原假设, 即这 12 名运动员均没有服用兴奋剂的假设是错误的。由于统计推断不是逻辑推断, 因此庞德结论必然包含着一定的犯错误的概率。 于是, 接下来的问题是, 庞德的结论犯错误的概率有多大?根据我
10、们上面的分析可以很容易算出这个概率, 它就是万分之三。于是问题又变成了, 以万分之三的概率犯错误而做出的判断究竟算不算是一个很有把握的判断, 毕竟是否服用兴奋剂对于一个运动员来说是非常重要的一件事情, 搞不好就会断送他们的运动生涯, 所以必须慎之又慎。显然庞德认为, 万分之三的概率已经是一个很小的概率了, 因此便 “信心十足” 地做出了这批运动服用了兴奋剂的判断。但是奥委会还是决定作进一步的调查。实际上, 奥委会最后必须在如下的两个假设中选择一个。原假设 H 0 : 这 12 名运动员没有服用兴奋剂 ;备择假设 H 1 : 这 12 名运动员服用了兴奋剂。不管最后会做出什么样的选择, 都难免会
11、犯如下的两类错误的一类。第一类错误 (弃真) : 原假设为真, 但拒绝了原假设 ;第二类错误 (取伪) : 原假设为假, 但接受了原假设。很自然的, 我们希望犯这两类错误的概率都很小。 可是不幸的是, 如果样本的容量给定 (即给定试验的结果),要想同时缩小犯这两个错误的概率是不可能的, 当其中一个减小时, 另一个就会增大。于是便又存在着取舍的问题, 那就是在样本信息给定的情况下, 首先应该控制犯那一类错误的概率。奈曼和皮尔逊提出了一个原则 , 即在控制第一类错误的概率的条件下 , 使犯第二类错误的概率尽量的小。 于是, 根据该原则 , 首先需要控制的错误是第一类错误。皮尔逊原则的出发点 : 我
12、们提出原假设时是经过细致调查和考虑的 , 它必须是一个要加以保护的假设 , 因此当我们要拒绝它时必须非常慎重 , 一般情况下不宜轻易拒绝。这种假设检验问题就是所谓的显著性检验问题。 称犯第一类错误的概率为显著性水平。显然, 由于事关重大, 我们是不能轻易地做出这 12 名运动员服用兴奋剂的决定的。 但是由于 “ 12 名运动员的血红蛋白均超标” 这一事件与正常结果之间的偏离程度非常 “显著” (因为在正常的情况下这一事件发生的概率只有万分之三), 因此, 庞德最后做出结论 : 他们服用了兴奋剂!“显著”, 英文的原文是“ Significant ”, 即有价值的、 有意义的。有些差异是有意义的
13、, 但是有些差异是没有意义的。 比如说, 某教务处长声称全校高等数学的平均成绩达到了 80分。 为了验证这个结论, 决定抽查一部分学生的成绩进行统计, 结果算得平均分数为 78 分。 很显然, 如果抽查的人数不是很多, 那么这个差异是不显著的, 因此不能由此就说教务处长在吹牛。 但是如果算得的平均分数是 60 分,那么我们就会认为这个差异有意义的,因而也是显著的, 因此便得出结论, 教务处长在撒谎!显著性检验只关心要不要拒绝原假设, 如果不能信心十足的拒绝, 便只好接受了。 至于接受原假设时犯第二类错误 (取伪) 的概率的控制问题, 则是在我们控制显著性水平时所必须忽略的问题 , 这是一个不得
14、不付出的代价。综上所述, 显著性检验中蕴含了如下两个思想。1. 反证法思想。 假设原假设为真,则 “ 12 名运动员血红蛋白均超标” 是一个 “有违常规” 的事件, 应该是不会生活中的统计学STATISTICS IN DAILY LIFE2010.1041 CHINA STATISTICS发生的, 而现在居然发生了, 因此他们一定服用了兴奋剂。2. 小概率原理。 上面所提到的 “有违常规” 的现象 , 并不是形式逻辑上的绝对不可能现象 , 而是基于小概率原理或统计推断原理基础上的不可能。 小概率原理认为 : 概率很小的事件在一次试验中实际上是不会发生的。注意 , 这里的 “不会” 不是逻辑意义
15、上的 “不会”, 而是统计意义上的“不会”, 并且事实上我们每一个人都是这个命题的忠实实践者。一个人在一生的很多场合都有可能会出现不幸的意外。 比如, 过马路可能会被车撞, 在露天有可能被雷打, 在家里可能会遇到地震, 乘飞机有可能会出现空难。 但是我们依然会出现在这些场合, 因为这时我们会想 : 哪有这么碰巧的, 这么倒霉的事情怎么会被我碰到呢?有些事情可以用碰巧来解释, 比如随机抛两次硬币均出现正面。 但有些事情则不能用碰巧来解释, 比如抛 20 次硬币均出现正面, 因为这实在 “太” 碰巧了, 我们宁愿相信抛硬币的人有技巧或者硬币有问题。“ 12 名运动员血红蛋白均超标” 这一事件在原假
16、设为真 (即大家都没有服用兴奋剂) 的情况下实在是太 “碰巧”了, 以至于我们有充足的把握拒绝原假设。就像 “看起来最像” 是理解最大似然法的关键词一样, “碰巧” 是理解显著性检验思想的关键词。参数估计与显著性检验的区别参数估计与显著性检验所要处理的问题表面上看有点类似, 它们都是在知道总体的分布形式但不知道其中的某些参数的条件下对未知参数作统计推断的方法, 但是, 在所要解决的问题以及所使用的方法上两者之间却有着本质的区别。为了对它们之间的区别有一个直观的认识, 我们先来讨论一个案例。美国军队原来的导弹制导系统是雷达系统, 其命中率为 50% 。 后来他们又研制了红外线制导系统。 为了确定
17、新导弹制导系统的命中率, 他们试射了 18 枚新导弹, 结果有 12 枚击中。 此时, 如果试验的目的仅仅只是为了估计新导弹的命中率, 那么这就是一个参数估计问题。 根据试验的结果, 运用最大似然法可以得到新导弹命中率 p 的估计值为 2/3或者 66.67% 。但是现在美国国防部需要考虑的问题是, 是否有必要更换制导系统, 即将雷达制导系统更换为红外线制导系统?而这首先需要他们回答这么一个问题 :根据这个试验结果, 能否认为红外线制导系统的命中率比雷达制导系统的命中率要高?设新导弹的命中率为 p , 则要回答上述问题, 需对以下两个假设进行检验以决定该接受哪一个假设 :( 1 ) 原假设 H
18、 0 : P=50% , 即新导弹没有提高命中率 ;( 2 ) 备择假设 H 1 : P50% , 即新导弹提高了命中率。前面提到, 如果是参数估计问题,那么 66.67% 是 P 的一个最大似然估计值, 它显然大于 50% 。 因此, 粗看起来, 好像确实是提高了命中率。 然而,由于更换制导系统 (即拒绝 H 0 或接受H 1 ) 是一件非常昂贵的事情, 因此当你在做最后决定的时候可能会有一些犹豫, 毕竟即使是雷达制导的旧导弹系统, 试射 18 枚导弹至少击中 12 枚的结果也是有可能会出现的。 也就是说, 即使没有提高命中率, 上述试验结果也是很有可能 “碰巧” 发生的。 这样一犹豫,红外
19、制导系统是否提高了导弹的命中率的问题便好像不再是显然的了。接下来的问题是, “试射 18 枚导弹至少击中 12 枚” 这一结果是否与 50% 的命中率有 “显著” 的差异?根据前面关于显著性检验的讨论,我们现在要做的是, 首先假设新导弹没有提高命中率 (即原假设为真), 即仍然为 50% , 然后在此假设下检验所发生的事件是不是 “有违常规”, 即其发生的概率是否很小。设 X 为试射的 18 枚导弹中击中目标的导弹数, 则在原假设为真时, X 服从二项分布 b ( 10,p )。 现在我们需确定一个数 k , 当 X k 时拒绝 H 0 同时接受H 1 。经过简单的计算可知, 如果取显著性水平
20、 (犯第一类错误的概率) 为 1% ,则此时 k 至少应为 15 ; 如果取显著性水平为 5% , 则此时 k 至少应为 14 ; 如果我们将显著性水平的数值取得更大一些,即显著性水平要更低一些, 比如取为10% , 则此时 k 至少应为 13 。 因此, 在显著性水平 1% 下根据击中的次数至少为12 是不能拒绝原假设的。 事实上, 如果此时作出拒绝原假设的结论, 那么犯错误的概率将达到 12% 左右。由于犯第一类错误的概率超过了10% , 因此试验的结果不能认为是一个小概率事件, 用统计学的术语来说, 试验的结果对于拒绝原假设来说是不显著的, 即不能由此说明新导弹提高了命中率。 为了谨慎起
21、见, 我们宁愿相信试验的结果是随机波动的结果 (碰巧的结果), 而不是由于导弹的性能有了显著的提高。 虽然接受原假设有可能会犯错误, 但问题并不是很严重, 因为不更换制导系统并不比原来更差, 命中率仍可维持在 50% 。 否则一旦作出拒绝的判断, 那么就将消耗巨大的人力物力来更换该系统, 其结果却很有可能 (概率至少为 12% ) 并没有改善导弹性能。如果想要得到更加精确的结论, 那么只能继续试验以获得更多的样本数据。这就是参数估计问题与显著性检验问题的不同之处。统计学是科学, 是技术, 同时也是一种艺术和哲学, 它包含了世界观的成分。 正如我们从上面的讨论中看到的,它并不是无源之水, 无本之木, 而是来自于我们日常生活这一 “活水” 之源。如果大家能够在学习统计的过程中充分的享受到其中闪现的智慧之美, 那么成为一个活学活用的快乐的读书人将不再是梦想!参考文献 1 Freeman D , Pisani R , Purves R ,Adhikari A. 魏宗舒等译 . 统计 学 M . 中国统计出版社, 1997.1. 2 陈希孺 . 数理统计学简 史 M . 湖南教育出版社, 2002.7.作者单位 : 浙江工商大学统计与数学学院STATISTICS IN DAILY LIFE生活中的统计学