1、统计中的数学文化,问题:有A、B两个人在赌博下了赌金之后约定谁先赢满5局谁获得全部赌金赌了半天,A赢4局,B赢3局。由于特殊情况发生,双方都同意不再进行下去 。如何分这个赌金?(两人赢的几率相同)。,(1)而是将赌金分为7份,A拿4份,B拿3份,你认为这是否公平?为什么?,这个要从概率论上分析: 1、首先单独一局,A赢的概率是4/7,B赢的概率是3/7。 2、A还差1局获得胜利,B还差2局。 3、也就是说B要赢必须连赢2局,这个概率是3/73/7. 所以A赢的概率是(1-3/73/7)=0.816(约等于) B赢的概率是3/73/7=0.184 。 所以分配方式应该是A拿奖金的81.6%,B拿
2、18.4%。,方案二:因两人赢的概率相同,B获胜概率为0.50.5=0.25, A获胜概率为1-0.25=0.75. 分配方案为A75%,B25 % 。,为什么这么算?,可以做若干次试验,有实验的结果统计就可以得到这样结论。 而这个结论是由数学推得到的。,又一个问题,一天,美国斯坦福大学商学院的数学教授库珀让同学们把自己的生日写在小纸片上,然后把所有的小纸片都折起来放在讲台上。他拿出一张5美元的钞票,问:“我用5美元打赌,你们中至少有两个人同月同日生。有人敢跟我赌吗?”,“我赌!”几个男同学举起手来,另外七八个同学也掏出5美元扔在桌子上。有的同学暗想:一年365天,我们班只有50个同学,同一天
3、生日的可能性也太小了,库珀这不是白送钱吗? 库珀教授打开第一张纸,读出上面写的日期,马上就有3个同学举起手来,表示那是他们的生日。打赌的同学嘟囔了一句:“怎么会这么巧?”周围的同学都大笑起来。,“解决这个问题最好用反证法,即先证明50个人中没有两个人同一天生日的概率非常之小。 “我们可以把365天看成365个房间,现在要给50个人按照生日安排住房,必须保证没有两个人住在同一间房(也就是没有两个人同一天生日)。对于第一个人来说,他选择房间的概率是365除以365,也就是l,因为所有房间都是空的,他都可以入住一第一个人住进去后,第二个人选择的概率就是364除以365了,因为已经有一间房住了人.他只
4、能住另外364间,接下来的第三个人,选择的概率就更小一些,363除以365,“按照这种算法,只有当每一个人住的房间都不同时,才能满足没有两个人同住一间房的要求。50个人住房的概率依次为365除以365,364除以365(365-50+1)除以365、由于若干个独立事件的乘积的概率等于每个独立事件概率的乘积,我们可以得出以下公式:365365364365 (365-50+1)365 “最后的结果等于0.029626,也就是说,没有两个人同住一间房的概率不足3%。表示在这个问题中,你们50个人中没有两个人是同一天生日的概率最多3%,那么至少有两个人同一天生日的概率就是大于97%。我赢的把握足足有九
5、成以上。” 说完,库珀扔下粉笔,得意洋洋地收获他的战利品10多张5美元的钞票。,同样可以做若干次试验,有实验的结果统计就可以得到这样结论。 而这个结论也是由数学推得到的。,再来看一个例子:运气的评估,某人在打麻将时候需要好的运气(当然技术都一样)。假如他先后摸了108张牌,好牌记为“1”,坏牌记为“0”,且统计如下:,000100011010010101011011000110100101 110110111100011001011011000101010010 110010001101110100010111010101010010,坏牌55次,好牌53次,看样子比较真实的。,如何中得到信息
6、?(这就需要数学的理性思维),表面上看,手气不太好,但也不怎么差。,引入0-游程(1-游程)概念,即连续的0(或1)。,如有m个0,n个0-游程,其概率为:,其中r-1个1。,越来越多的人意识到统计在人类生活的各个方面所起的重大作用。 据说,在美国统计已经取代了计算机,成为最容易找工作的专业。而中国数学类学生赴美留学的首选专业也是统计。 由于国情,虽然国人对统计的尊重远远不如美国人,但时代在变化,中国统计专业研究生的就业前景已经令许多曾经热门的专业望尘莫及。 在不远的未来,统计的优势只会增加,而且会长期保持领先地位。,统计的地位,统计被人看重的原因是供不应求 。 一是统计的巨大市场;几乎所有领
7、域都需要统计。 另一个是统计专业所需要的包括数学、统计和计算机在内的功底,绝不是通过任何速成训练就能够达到的。 人们知道,学数学的改行学什么的都有(反之不然),但即使是学纯粹数学的,改行学统计,也不象数学改行力学或物理那么容易。,统计的处境,统计专业的研究生毕竟有限。世界上各领域的多数统计工作都还是该领域的人士进行的。 而专业统计工作者的主要任务,则是根据各领域的需要,发展新的统计方法和理论,建立新的模型,发展新的计算方法。,那么,什么是统计呢? 报表?数字? 数学公式、定理及推导?,统计 (统统忘记),会计 (快快忘记),什么是统计,首先必须提及似乎只有在中国才有争议的统计定义。我相信,世界
8、上多数统计学家都会同意下面大英百科全书的关于统计的定义: 用以收集数据、分析数据和由数据得出结论的一组概念、原则和方法.,统计的定义,这个定义强调了统计以归纳为主的思维方式,这使得统计显然不同于以演绎思维为主的数学。 该定义也体现了统计为各个领域进行数据分析的服务性命运。,按照这个定义,目前我们所知道的统计,或者在某些“统计杂志”主编眼中的统计仅仅是统计的一个很小的部分。,亲爱的丁: 我们的感情,在组织的亲切关怀下、在领 导的过问下,一年来正沿著健康的道路蓬勃发 展。这主要表现在:(一)我们共通信121封,平均3.01天一 封。其中你给我的信51封,占42.1%我给你 的信70封,占57.9%
9、。每封信平均1502字,最 长的达5215字,最短的也有624字。,情书(一),(二) 约会共98次,平均3.7天一次。其中你主动约我38次,占38.7%我主动约你60次, 占61.3%。每次约会平均3.8小时,最长达6.4小时, 最短的也有1.6小时。(三) 我到你家看望你父母38次,平均每9.4天一次,你到我家看望我父母36次,平均10天一次。以上充分证明通过一年来的交往,我们已形成了恋爱的共识,我们爱情的主流是互相了解、互相关心、互相帮助,是平等互利的。,当然,任何事物都是一分为二的,缺点的存在是不可避免的。我们二人虽然都是积极的, 但从以上的数据看,发展还不太平衡,积极性还存在一定的差
10、距,这是前进中的缺点。相信在新的一年里,我们一定会发扬成绩、克服缺点、携手前进,开创我们爱情的新局面。,因此,我提出三点意见供你参考:(一)要围绕一个爱字, (二)要狠抓一个亲字, (三)要落实一个敢字。 让我们弘扬团结拼搏的精神,共同振兴我 们的爱情,争取达到一个新高度,登上一个新 台阶。本着幸福由我们主宰,爱情由我们创造 ,幸福属于我们的精神来发展我们的感情,共 创我们人生的辉煌!享受人生! 你的王子,中国在周朝就设有统计官员,称为司 书。设立“司书上士二人,中士四人,府二 人,史二人,徒八人。” 负责 “邦之六典,以周知入出百物,以知田野夫家六畜之数。” (见周礼天官冢宰),统计学的起源
11、(一),管子问中提到65个问,即65个调 查科目,均为管理国家所需要的数据。比 如,“问少壮而未胜甲兵者几何人?” “为一民有几年之食也?”等等。(平均数、众数?),任何领域!,什么地方统计用得上呢?,Edmond Halley (哈雷) (1656-1742) Leonhard Euler (欧拉) (1707-1783)Thomas Robert Malthus (马尔萨斯) (1766-1834) Ronald Aylmer Fisher (费歇) (1890-1962), Moivre (棣美佛) (1667-1754) Pierre Simon Laplace (拉普拉斯) (174
12、9-1827) Jacob Bernoulli (伯努利)(1654-1705) Thomas Bayes (贝叶斯) (1702-1761), Adrien Marie Legendre (勒让德) (1752-1833) Friedrich Gauss (高斯) (1777-1855) Johann Gregor Mendel (孟德尔) (1822-1884) Karl Pearson (皮尔森) (1857-1936) William Feller (费勒)(1906-1970). Jerzy Neyman (1894-1981) Egon Sharpe Pearson (1895-1
13、980),统计历史人物,当你买了一台电视时,被告知三年内可以免费保修。你想过厂家凭什么这样说吗?说多了,厂家会损失;说少了,会失去竞争,也是损失。到底这个保修期是怎样决定的呢? 在同一年级中,同样统计学的课程可能由一些不同教师讲授。教师讲课方式当然不一样,考试题目也不一定相同。那么如何比较不同班级的统计学成绩呢? 大学排名是一个非常敏感的问题。不同的机构得出不同的结果;各自都说自己是客观、公正和有道理的。到底如何理解这些不同的结果呢?,一些简单的问题,任何公司都有一个信用问题。当然,在这些公司试图得到贷款时并没有不还贷的不良记录。如何根据它们的财务和商业资料来判断一个公司的信用等级呢? 我国东
14、部和西部的概念是一个比较笼统的概念。如何能够根据需要,选择一些指标来把各省,或各市县甚至村进行分类呢? 疾病传播时,如何能够通过感染者入院前后的各种因素得到一个疾病传染方式的模型呢?,如何通过大众调查来得到性别、年龄、职业、收入等各种因素与公众对某项事物(比如商品或政策)的态度的关系呢? 一个从来没有研究过红楼梦的统计学家如何根据比较写作习惯得出红楼梦从哪一段开始就不是曹雪芹的手笔了呢? 如何才能够客观地得到某个电视节目的收视率,以确定广告的价格是否合理呢?,“明天降水概率为40” “冬天去新加坡度假的概率为10”(为什么不说10.25%?) “该节目收视率是30%”(按照什么标准?) “抽样
15、调查结果的误差为3%” “支持率的95置信区间为(25%,30%)” “某学校排名第一”,如何理解下面说法?,“某国的综合竞争力排名第43位” 我昨天在飞机上遇到大学同学;难道小概率事件经常发生? “该药品疗效99%” “该国贫富差距大”(如何衡量?) “该结果统计显著” “他的血压已经正常了”(有真实标准吗?),数据可以有误或作假 统计方法(有意或无意)使用不当可以误导。有低级误导和高级误导。 常识判断和直觉是重要的,你相信统计结果吗?,谁会在1936选举中获胜 ?Alf London还是 F.D.R.(罗斯福)? Literary Digest (文摘)送出一千万份问卷(返回二百四十万份)
16、后,预测London 会赢. 而Gallop(盖洛普)只问了5000人说 Roosevelt (罗斯福)会赢. 最后罗斯福和盖洛普都赢了.文摘倒闭了.,关于美国选举的两个例子(1),谁会在1948选举中获胜 ? Thomas Dewey还是Harry Truman(杜鲁门)? Crossley, Gallop(盖洛普), Roper所有都预测Dewey 会赢(每个机构用了5000个问卷). 最后(包括盖洛普)他们都输了, 而杜鲁门赢了.,关于美国选举的两个例子(2),问卷如何写? 问谁?问多少人? 谁问? 如何问?,问卷调查很简单?,统计可以指导我们收集数据. 当拥有来自一些变量(指标)的数据
17、或记录,但缺乏模型来描述这些变量之间关系的情况下,可用统计方法建立模型. 在有了一定的模型时,统计可以确定手中数据是否令人信服地支持某种论点.模型也用来对未来进行预测. 统计直观的图表展示,可以使各个领域的专家容易理解,统计的一些做法,中国统计过去分为“统计学”(文科的列宁主义统计)和“数理统计”(国际通常意义上的统计),中国统计的独特历史环境,国内一些学者把统计称为是经济学科的一部分,则是中国特有的与前苏联关联的国情所造成;读者可以从苏联大百科全书的统计学条款得到答案。 但前苏联的经济学中的统计学概念是其意识形态和计划经济体系的产物,其模型多属于小学数学水平,很难称为数学模型。这与现代经济学
18、所需要的大量的统计和数学形成鲜明对照. 前苏联式的“统计学”不是目前国际流行意义上的统计学或统计学的分支。目前俄国也没有人问津了;但其八股形式在中国仍然流行(特别在官方统一的考试中)。,有人说,我们应该学“经济统计”、“管理统计”等等。 如果统计学是“一加一等于二”,而作为统计的个别应用是“一个苹果加一个苹果等于两个苹果” 。 难道苹果换成香蕉就不知道该怎么办了吗?,数学的几乎所有内容(不一定事先知道需要什么) 用计算机做统计计算 其他(对象)领域的知识,统计的内容和需要的知识,有人说,我们在数学分析中,学到的东西后来大都没有用。 更不要说中学的平面几何了。 因此,有些人(包括一些领导)认为我
19、们可以取消平面几何等等。 但也有人说:我国冤假错案那么多(除了腐败因素之外)就是因为那些执法人员没有学好平面几何。,数学的重要性,数学给人最大的益处可能就是教会人如何合乎逻辑的思维。 “学数学的学什么都学的会”这句话有道理吗?,真正严格的逻辑仅存在于数学之中,只能够从学习数学中获得。(哲学,法律?) 数学的逻辑服务于现代理性社会的所有方面。(例如法律) 在一定的公理系统下,纯粹数学是唯一可以说得出绝对是非的世界。 为什么人们对数学家的印象是“呆”? (世界并不是完美的),数学思维是以演绎为主 统计思维是以归纳为主,兼有演绎 统计各领域利用几乎所有存在的数学内容. 但统计本身的数学是为具体目标服
20、务的,自己一般不形成数学体系,统计和数学的区别,为了数学的目的,我们需要用笔和纸进行推导。 但为了统计的目的(实际需要的代名词) 我们就要不择手段。最重要的就是计算机。,由于统计和数据打交道,没有计算机的发展统计就没有前途. 计算机和统计的发展相辅相成,计算机的重要性,作为根据的数据(比如各地人均GDP,各种资源,自然条件等和航空旅客人数) 基于数据建立模型(回归模型) 模型用来指导未来, 预测未来(某城市GDP达到某水平,是否需要建立或扩建机场等决策) 模型随时要根据新的数据来改进(新的飞机,新的消费理念,新的旅游景点等) 没有完美的模型 没有无误差的数据,数据和模型的关系,由于统计需要大量
21、的数学,而且现代统计的基础也是数学家所奠定的,统计也被人认为是数学的一个分支。这没有什么不可以,就看如何定义数学了。,统计和数学,但统计肯定不应属于纯粹数学的范畴。下面所提到的“数学”实际上主要指纯粹数学。(还有别的数学吗?) 统计和数学都是可以为各个领域服务的。但是统计和数学有很大的区别。,和音乐类似,数学圈内的人士可以欣赏数学本身的美妙的境界。 数学的很多内容可以和实际世界没有任何关系。虽然现在越来越商品化的世界正试图改变各学校数学系的操作;但纯粹数学的纯洁性可能永远也无法改变。,因为由于历史和国情的原因,中国曾经有过两个统计观念,一个是在经济类下面的文科统计,一个是数学类下面的数理统计。
22、当然,没有人会定义谁是统计工作者或统计学家。任何与数据打交道的人都可以称自己是统计工作者。任何人都可以说自己搞的是统计。但下面关于统计(学科)的论述,是基于上面所引用的定义的。,统计的课程,从上面的定义看,统计和数学在思维方式以及在社会的地位都很不相同。因此,在教学上也应该有所区别。 目前的数理统计课程是公认的既不好教,也不好学的课程。其原因很简单。 目前多数数理统计教科书的内容主要是在计算机广泛应用之前的二十世纪中期发展的以估计和假设检验为主的统计推断理论。 这些理论和19世纪的微积分很不一样。,发展这些理论的(数学出身的)大师的贡献主要是数学上的,特别是基于大样本的统计性质推导。 他们关于
23、估计和检验的几乎所有定理或者假定了总体的分布类型或者涉及大样本的极限情况。而多数成果是以数学论文的形式发表在数学味很浓的杂志上的。 从这些论文所发展出来的教材很难不使目前数理统计的相当大部分讲课时间都花在对公式和定理的推导和证明,而没有集中足够的精力来理解藏在这些理论背后的统计思想。,在这样的数理统计教学中,学生很容易得到统计是数学的一部分的印象。 然而,对于学过数学分析的学生来说,这些“数学”看上去既不系统、又不漂亮,但由于没有理解背后的统计思维逻辑,学生常难以理解为什么要教这些内容。 而对于非数学专业的人来说,这些“数学”却往往显得十分奇特深奥。 其根本原因是这些教科书把以归纳为主的统计按
24、照以演绎为主的数学来写了。,统计思维,类似于物理学,统计在否定中发展,统计的一个重要但又往往不易为人所理解的特点是统计从来不绝对地说“是”或者“不是”。 统计只能够说可能。 负责的统计学家必须提供可能发生的概率。 然而,许多人不那么做(像卖假药的吗?),你们意识到没有?在没有任何先验假定的情况下,用统计方法永远无法证明什么绝对是什么。,大灰狼吃羊犯错误了吗? 人类社会之外的自然界有是非吗? 人类社会的“是非”是一成不变的吗?,是非是人类社会的产物,统计只说可能性是实际世界的真实体现。真实世界充满了不确定性。 从某种意义来说,生活中唯一确定的事情就是其不确定性。,正是不确定性使得生活充满了魅力和
25、迷人的色彩。 有多少人会享受其未来每一时刻全部已经确定了的世界呢?,我们肩膀上长着自己的脑袋 我们可以充分运用我们自己的逻辑思维 我们需要习惯逆向思维方式 让我们没有任何约束地看待世界上的任何问题 这样,世界就不会停滞,就会更让人能够接受,那些把世界简单化,把世界说成只有“是”和“非”的人,不是无知,就是别有用心。人类世界上如此多的麻烦,有哪些不属于这个范畴呢?,世界上问题之根源,数据是什么?,Data = ¥,数据的妙用,有一个人陆续收到一个人的Email告之明天足球比赛的结果,连续五次都预测对了。第六次时他要求你付200块给他以知明天的比赛结果,你说这个人有预测比赛的能力吗?(如果此人是猜
26、的话,连续猜对五场的概率是1/25=0.031)(详细请见读者2005.22),数据的妙用(统计与欺骗),实际问题,数据收集,试验设计 抽样调查,数据分析,统计方法 (估计与检验),结论,建议与讨论,什么是统计,Thomas Bayes (1702-1761),Statistical Quality Control (On line) Taguchi Methods (Off-line) 6 Sigma MethodsBeginner, Black belt, Master black belt,Green belt, Champion, Executive Reliability,统计在工业
27、上的应用,Statistical Process Control (一),Statistical Process Control (二),-2,2,3,-3,Shewhart Chart-3,1986 西格玛方法被引入摩托罗拉公司,1987 制定1992 应达到西格玛目标,1988 马科姆鲍德里奇全美质量大奖,1991 引入“黑带创意”,1992 每两年减少缺陷十倍,运作周期每五年降低10倍。,1998 公司重组,1999 行为准则,追求卓越和平衡的记分卡,2002 西格玛业务改进,摩托罗拉公司六西格玛的发展,2003 数字六西格玛,1,规格上限,规格的下限,减少散布是 6的核心。,平均,目标
28、(Target),p(不良率),缩小不良的核心是减少散布。, 记号前的数值(Z值)越大,不良发生概率越小。,目标,目标,规格限,规格限,不 良可 能 性,减 少 的 不良可能性,什么叫Six Sigma?,6s,u (平均值),0.01ppm,LSL,s,USL,12s,6s,0.01ppm,什么叫Six Sigma?,六西格玛近乎完美,平均值,每10亿零件中 有2个零件,Cp = 2,规范下限,规范上限,缺陷,缺陷,u (平均值),3.4ppm,LSL,USL,4.5s,1.5s,7.5s,0ppm,目标(Target),什么叫Six Sigma?,DMAIC 与过程改进路线图,DMAIC是
29、指定义(Define)、测量(Measure)、分析(Analyze)、改进(Improve)、控制(Control)五个阶段构成的过程改进方法,一般用于对现有流程的改进,包括制造过程、服务过程以及工作过程等等。 定义(Define) 界定核心流程和关键顾客,站在顾客的立场,找出对他们来说最重要的事项,也就是品质关键要素(Critical to Quality,CTQ)。厘清团队章程,以及核心事业流程。 测量(Measure) 找出关键评量,为流程中的瑕疪,建立衡量基本步骤。人员必须接受基础概率与统计学的训练及学习统计分析软件与测量分析课程。为了不造成员工的沉重负担,一般让具备六西格玛实际推行
30、经验的人带着新手一同接受训练,帮助新手克服困难。对于复杂的演算问题,可借助自动计算工具,减少复杂计算所需的时间 分析(Analyze) 探究误差发生的根本原因。运用统计分析,检测影响结果的潜在变量,找出瑕疪发生的最重要根源。所运用的工具包含各类统计分析工具等。 改善(Improve) 找出提升关键指标和质量特性的最佳解决方案,然后拟定行动计划,确实执行。这个步骤需不断测试,以观察改善方案是否真能发挥效用,减少错误。 控制(Control) 确保所做的改善能够持续下去。不断测量,才能避免错误再度发生。在过去许多流程改善方案里,往往忽略了控制的观念;而在六西格玛改进中,控制是它能长期改善品质与成本
31、的关键.,DMAIC,界定(Define) 什么是最重要的?测量(Measure) 我们目前做得怎样?分析(Analysis) 错在哪里?改进(Improve) 需要采取哪些措施?控制(Control) 我们如何保证业绩?,有哪些可以实现本组织目标并提供最大收益的改进机会。我们目前的业务水平怎样(如西格玛水平或Cpk)?业绩中存在之差距或问题的根本原因是什么? 有哪些可能的解决方案,我们如何实施最佳解决方案? 我们如何保持已经取得的成绩?,六西格玛改进过程,产品寿命分布及统计分析恒进应力寿命试验加速应力寿命试验 截尾数据的统计分析定时截尾定数截尾,Reliability,Design of E
32、xperiment (DOE) 气象 渔业 生态农业 环境保护 动物保护(capture recapture) ,统计在农林牧渔业上的应用,军官问题(这是世纪瑞士数学家欧拉提出的)设有种军衔和来自个团的名军官,能不能把他们排成行列的方阵,使得每行每列里都有每种军衔的一名军官和每个团的一名军官? 数学问题:是否存在6阶的正交拉丁方?,Design of Experiment,Design of Experiment,欧拉猜想:当N为奇数的2倍时(包括N=6),问题是无解的 到20世纪50年代,印度数学家Bosh等人证明:除N=2和N=6外,这个问题都有解!这就是说,欧拉的猜想除N=6外,其余都猜
33、错了!,Climate (Global Temperature),渔业(花港观鱼),市场调查与咨询 物流(仓库的设计与储量分析) 交通运输业的统计分析 数据挖掘,统计在商业中的应用,传统的抽样方法:1. 简单随机抽样2. 分层抽样3. 二阶抽样4. 整群抽样5. 二重抽样 传统抽样的特点:成本与误差的平衡设计与分析的结合,市场调查与抽样(一),统计模拟与重抽样(Monte Carlo & Resampling)1. 伪随机数的产生:同余法、混合同余法、逆变换法等2. 重抽样方法:刀切法(Jecknife)、自助法(Bootstrap)3. 新兴的抽样方法MCMC (Markov Chain M
34、onte Carlo)模拟退火 (Simulated Annealing ) 特点:计算机的应用!Ross, S. M. (2002). Simulation, 3rd Ed., Academic P,市场调查与抽样(二),:,,,,,.,舅舅:不要吃酒,吃酒误事,吃了二两酒,不是动怒,就是动武,吃酒要被酒杀死,一点酒也不要吃。,Data Mining (一),7 2 2x3 40 6 二四六八1 1 = 1 10002 =100100100 7/8 687 3x,不三不四 接二连三 陆续不断 无独有偶 一成不变 千方百计 七上八下 了不起 thanks,Data Mining(二),Data
35、 Mining(三),统计方法 计算机的应用 计算方法,Its hot!,Data Mining(四),有一次,美国沃尔玛公司的分店经理发现:一段时期以来,每逢周末店内啤酒和尿布的销量 都会同比攀升。 . 分析还发现:原来这些人习惯晚上边看球赛、边喝啤酒,对于要照顾 的孩子,为了图省事就用一次性尿布。于是沃尔玛决定:把这两种商品集中摆在一起。,Data Mining(五)(啤酒与尿布),Nobel Prizes期权定价模型、投资组合模型 Insurance保费的计算、产品的设计,Financial and Acturial Statistics,在军事及航空航天中的应用,Samuel S. W
36、ilks(1906-1964),Abraham Wald(1902-1950),SPRT检验(一),20世纪40年代,Wilks在普林斯顿大学数学系工作,并任华盛顿海军研究局顾问,成立了普林斯顿统计研究小组(SRG-P)。当Theodore W. Anderson还是此小组的研究生时研究了如下课题:由于日本人以随机形态在海岸线上布满地雷,而进攻日本本土日子越来越近,故美国需要找出一种毁坏地雷的有效方法。在此之前,欧洲曾尝试过从飞机上丢炸弹来引爆地雷,但效果不好。于是,Anderson等人设计一种新方法,但实验数据表明这种方法并不有效。这样就导致美国在日本投下原子弹的原因之一。,SPRT检验(二
37、),Wilks又在哥伦比亚大学组建了第二个统计研究小组(SRG-Pjr),这个小组的成果之一即是提出了与此与此序贯分析(序贯分析当时被列为最高机密,直至战争结束多年后,参加这项研究的专家都不能对外发表论文)。 后来,Abraham Wald通过高度抽象的理论归纳,提出了决策理论。,SPRT检验(三),法律 心理学(测慌) 经济学 社会学 人口学 管理科学 文学 考古 ,The Applications In Social Sciences,数据:美国佛罗里达,1976-1977年凶杀案 结论:白人被判死刑的比例为:19/160=11.9%黑人被判死刑的比例为:17/166=10.2%,The
38、Applications In Social Sciences(法律之一),Contingency Table (列联表),The Applications In Social Sciences (法律之二),多元统计分析:聚类分析,The Applications In Social Sciences (文学红楼梦),分类、搜索 图像或模式识别 网络完全(数字签名),在IT业中的应用,Biostatistics制药业(比对试验)疾病的诊断(Bayes方法,图模型等)病理分析疾病的控制,统计在医药卫生中的应用,The Applications In Bioinformation,地质勘探 公安
39、(指纹识别、脚印识别、图像恢复) 服务行业 体育,The Applications In Other Fields,Scoring that breakthrough goal can give a team the impetus to win.,在足球中的应用(一),Goals beget goalsScore once and youre more likely to score again, say statisticians. Michael Hopkin(Published online: 9 June 2006; doi:10.1038/news060605- 数理统计学简史,湖南教育出版社. 陈善林、张浙(1987). 统计发展史,立信会计图书用品社. Huff, D. (1982). How to Lie with Statistics, W. W. Norton & Company. Salsburg, D. (2001). The Lady Tasting Tea: How Statistics Revolutionized Sciences in the Twentieth Century, Henry Holt and Company. (邱东译, 2005),