1、1十二. 概率与统计概率来自赌博及其他“未知”事件的预估丢骰子,我们猜1,2,3,4,5,6 出现的百分率为 ,猜得对不对永远得不到证明,例如掷61次,得n,nxx,21其中,若第 次掷得“1” ,我们取 ;掷不到 1,取 这样,i i 0ixnxxfn21便是所得“1”的比 时, 不可能等于 ;“ ”只能是5,43,nf61我们心中的“信度”:预期 趋向无限大时, 趋向 只是吾生有涯,骰生亦有涯,这样的预期不可能得到证明,况且,可能有人做了手脚,使 充分大n时, 逼近 ,而 另外,如果骰子已掷,我用手盖住,偷看,知是 2;nfp61你没看到,说 1 的机会或概率是 不仅掷骰子,考试成绩、生意
2、盈亏、天气冷暖及领导民望都可估计,但不一定“准”:有测量或度量误差(measurement error)和概率风险或误差 (probability risk 或 errors) 游子情 主角子青曾在赌城拉斯威格斯(Las Vegas)时间:他与未婚妻梅芳白首偕老的机会大,还是赌大小赢的机会大?这个问题有趣兼可悲七年后,真相大白,梅芳染上七年之痒,要离开他,能不能白首偕老不再是概率问题,赌大小则仍是概率问题:例:掷两个公平的骰子,计算得大、小的机会解:定义概率(probability)或样本(sample) 空间 (space)是可能的结果 ,|S的子集 为事件(event),并用 表示 的元素
3、数现在SA)(A,6,543,2,|(ji2,36S得大的事件为,7|),(jijA有 15 个元素:A(例如 ) 15A)6,2(设 中各结果发生的概率相等:每个 出现的概率都是S Sji,(.36故 出现的概率为A,3615)(SAP小于 21在赌场上,赌大小一赔一,因此,赌客每赌一次在机会上都吃小亏,但往往赌本及赌注上限比“机会”更重要将赌注加倍再赌,小赢的机会增加,大输的机会也增加,输到没钱不能再赌,因此有钱人比较化算赌场赌大小设上限,用来保护庄家那天,上限未到,子青已无力再赌任何一个概率(probability) 都满足:P(这里样本空间 是有限集合) ; (1)1)(SPi S;
4、(2) A,0, , , (3))()()BPi ,BA其中 是空集(不含任何元素) , 表示并(union), 表示交(intersection) :或 , 及 BAA|例:证明,)()()( 212121 APP)()(312133 APAA 3,)()(32132APA()()( 212211 111 rjkjkrkknjjnj PAP (4) )()1 njA证明:回顾集 关于集 的余集(complement)是BABx|因(用 ))()()21211 APAP)(i及(用 )),()()12122)(i相加,得,)()()( 212121 APAPA即)()()( 212121 一般
5、的情形可用数学归纳法证 证毕学问:有 对夫妻,各妻子扔一手帕,成堆,丈夫随意检回,至少有一人n检回妻子扔的手帕的概率是多少?学答:设 为丈夫 检回自己妻子手帕的概率,则答案为 视jAj njAP1)(手帕为 个位置,用上公式的符号得n, nPj 1!)()(1)(1jjAP,)(!2()(21 Ak,!1)(1)(2121 nPkk4,!)()(21 nrAAPrkk,!1)(2121 rr rkkk 故由(4)得 !1)(!32)(1 nAPnj有些人觉得当人数 增大时,答案会向零逼近理论上,因,!1e,11)(limeAPnj大于 63% 如果,)()(BPAP我们说 独立一般地,如果在事
6、件 中,任选 ,BA, nA,21 rkkA,21,都有nkkr21,)()()( 2121 rr kkkk PPAP 则我们说 独立(independent)或随机独立(stochastically independent) nA,21例:掷两个公平铜板,以 H 表正面,T 表背面,则样本空间为:),(,),(, TS设, , ),(,TA),(,B),(,THC因骰子是公平的,故对任一个 S 的元素 , 或:41P4S及 SAP,)(5故, , ,214)(AP214)(BP214)(CP, ,A, 41)(CBP 04)( SBCP所以 两两独立,但 不独立这说明了三个事件间的关系异于两
7、CA,A,个事件间的关系概率模型(probability model)建筑在已知的事件上有时事件 必须伴着另A一事件 发生,其中 已知或未知;这样,我们应计算 发生的概率B BP(为保持 的概率为 1,我们单位化条件 所引发的概率 :)S Q, )()(BPAQ.0)(容易证明 是概率,即满足(1)(3) 为强调与 相关,记 为 ,B)(A)|BP而叫 为 在条件 下的概率;叫 为 下的条件概率(conditionally )|(BAPQprobability)如果 独立,易证 , )(|(PA习题:用归纳法证21 12111 )(|()|()|()( nj nnnjnj APAPAP(5)其
8、中 . 0)(121n学问:瓮 含五绿珠,两黄珠;瓮 含三绿珠,六黄珠请君入瓮,拿一II珠,看到是黄色假设一切动作都是随机的,问珠来自 的机会?I学答:设选到瓮 , 选到瓮 , 选到黄珠1AI2AIB问题是: ?)|(BP6如果给出 ,容易计算 , :21,A)|(1ABP)|(2, 723)|(1BP963|我们得想法将条件 转为条件 :21,( ))(|)()|( 11 BPAA)()|(11APB(用性质(3) ))()(|211BP)(|()|(| 211APBA因,)(2)(21P故1032967)|(1BA答毕由上面字里行间的理得:贝氏法则:设 , ,各 ,且 ,kAS21 SB0
9、)(,iAP1, 两两不相交,则2Ak )(|()(|()|()|( 2111 KkAPBAPBpAPBP 前式里, , , 的秩序是任意的,因此容易(或不必) 写出 的公12k |j式, j,注:贝氏即 Rev.Thomas Bayes(17021761)回到赌大小上,子青在赌博时凝神注视看和 ;它是一个在集 上的实函XS数:, jijX),(Sji),(7样本空间上的实函数都叫随机变量(random variable),它与一般函数不同的地方在于它对应一个概率函数(probability function) 或 :Xf, ,)()xXPxfIR其中 是事件 的缩写搏彩时,庄家经常宣传 时得
10、XS:xX奖 ,但不宣传对应的机会 我们定义 的平均值(mean) 或期望值)(xg)(xfX(expectation) 或 :)(EX各 的和 (6))(xf易证各 的和 (7))(XgE)(f为度量 与平均值 的差,我们引 或 ;并xX)(2E叫它作 的标准差(standard deviation), 叫 为 的方差或变差 (variance),记2作 :XVar各 的和 (8)ar)(2xf易证 (9)2)(XEVr或更一般地, (10)22)()(araIR如果我们用 去估计 ,那么, 叫偏倚或偏度(bias) 如果我们叫X为平均误差(mean square error)或矛盾(con
11、tradiction),那么,)(2E ,0(相当于:)1平均误差=方差+ 偏度平方因 而起,是一种内在矛盾; 则因对外而起: 的值已同化或XVar 2)(aX团结为平均值 ,与外来的 相比,得矛盾 这么想上式可写为:a8矛盾=内在矛盾+ 外在矛盾这观念不具体化时叫矛盾论,具体化以后则叫方差分析(analysis of variance) ,非常重要,这里所点的只是火种下两不等式简单而有用:马尔可夫(Markov)氏不等式:设 为非负随机变量,则对任意的正实数 ,Xc cEXP)((11)证明:各 的和)(E)(xf各 的和,c各 的和,)(xcf= ,XP从而cE)(注:马尔可夫即 Andr
12、ei Andreevich Markov (1856 ),他的数学成就192导致随机过程(stochastic process)的诞生切贝谢夫(Chebyshev 或 Tchebichef)氏不等式:设 是一个平均值为 ,方X差为 的随机变量,则对任意正实数 ,2c (12)2)(XP证明:在马尔可夫氏不等式中以 代 及以 代 ,得2)(X2c,22)(c即2)(cXP证毕9回到赌大小上,子青的兴趣对应一个概率空间 上的函数 ,其中SX,6,543,21,|)(jiS, ,jiX,ji)(, . SAP)(假设他赌大,并以 表示 发生时的赔率或奖率:xgxX,7,1)(.xx,361),()1
13、,()2( SPX,2),(),2()3(,36)1,(),3()1,(),()4( SPX 12 12872 )()()1)()(x xx xXPXPXgE,635或 61352)7()()( XPXgE各 的和22xfg= ,1365)1(从而由(9)得)()(2XgVar学问:分析子青输、赢的机会!学答:当时赌大小的上限是 1000 元,而子青从一元赌起,输了加倍再10赌由于各次扔出的结果相互独立,而每一循环他只能输10232219元,机会是;0456.)3621(赢一元,机会是9.)(10赌别的, 会随着“赌趣”变,期望(7)也自然地跟着变gXS,前面随机试验的结果虽然不知,但它对应的
14、概率却已知,或假设已知;统计(statistics)里的概率都是未知或部分未知的.例:我们对 N 个个体的某些度量有兴趣,为方便,个体以 来表示N.,21(像身份证号码):(整体population) (13) .,21IP个体 的度量以 来表示,因我们只想入门,限制 :jjy jyIR,(度量整体measurement population) (14) NNjIRS1)(其中 应该由所面对的问题决定,代表 的已知度. Sy我们将在 里抽元素 ,相同或不同都可以,生成样本空间IPn,21(sample space):各 , (15):)(1nin)(NiIP叫 的样本大小(sample siz
15、e).所有 的子集都叫事件(event),nni1)(n形成 (16):nnAI注意 含 个元素而 含 个元素nNN2抽样或抽样法sampling(scheme)是一个在 上的概率 ,即当nIAP11时, 满足 . 给出一个在 上的抽样法 ,令 SnP)1(3nIAP, , (17))f则 各 ,且和为 . (18)0)(f1因此我们叫 为概率函数或仍叫它作抽样法;它与 的对应是 的:f P1, (19)AfP)()(n我们只估计整体平均值(population mean):. (20) Nyj1选 以后,我们进行测量诸 ,不出错则得 :ni1)(iiy(数据data) (21),)(1niy
16、, (样本) i而根据 制造一个估计 的数 ,叫做决定(decision):niy1)()(d估计 ; (22))(d代表操作者(practitioner)作决定的习惯,叫做决定函数(decision functiond)我们希望接近 . (23))(d因决定 是随机的,我们只能退而求其次,希望 的平均值接近 ,甚)(d )(d至等于 :, (24))(dE其中,如前,各 的和. (25))()(f为估计 ,抽样法 应与 相关,但因不知 ,只能相关到一定的程PNjy1Njy112度.如果对任意的 , (24)都成立,我们说 是 的无偏估计子Njy1Sd(unbiased estimator).
17、现实的 虽不知,但固定,因此对所有的Njy1)( Njy1要S求(24) ,已无偏到别家去;这“过份”来自 的未知性,是所有统计判别Njy1准则(statistical criteria)或统计原则(statistical principle)的通病,我们叫这病做先天不足症, 越大,不足症越严重.S为寻 的无偏估计子而加权:定义, , (26)jywjh)(IP并用诸样本单位(unit) 的加权和i(27)niiiyd1)(来估计 ,其中 待定,用来满足(24).我们需要计算 的公式:Njw)(dE命题 1:设 为从 到 内的函数,gIPR, , (28)niigG1)()(ni1则, (单重
18、和公式) (29)NjjgE1)()(其中各, (个体 被抽的概率和) (30)nijjp1j.(在 次抽到 的机会) (31)):(jPinji ij证明: (用(7) )nfGE)((用(28) )niig1(iinP1)(13(划 或 份)niNjjiiPg1)(nNnijji1)()((用(3) )):()1jPjginniNj jnijp1)(.Njjg1)(证毕.上面的 是由求 自然地引出来的!同样,Nj1)(GE命题 2:在命题 1 中,重令 为从 到 内的函数及g2IPR, (32)ii),()(则, (双重和公式) (33) NjjgGE1, ,)()(其中各, ( 被抽到的
19、概率和) (34)ijjp,j,.(第 次 被抽到的概率)):(,Ppiinji i,j,(35)读者还可以陈述及证明 重和公式, k.,43k由单重和公式及(2)得. (36)NjjjywdE1)(故要满足(24) ,只须取各,j14即, , (37)jjNw10j则得 的无偏估计子(unbiased estimator) :*d.(各 ) (38)niiiyd1*)(0j在一重和公式及二重和公式中取 ,得1g, (39)nNj1 ),(1,nNjj若各 相等,则j, (40)Nj.,2j及, (41)niiyd0*1)(从而 由数据向量(datum vector)决定:)(*d以样本(数据
20、)平均值估计母体(度量)平均值用(9) ,一重和公式和二重和公式,不难证明命题 3(b):命题 3:(a) ,*dE(b) , (42)AyVar其中 ,且各j. (43))1(1, jjjNa例 (例中例):简单随机抽样(simple random sampling).令 表示(2) n0诸 不等的 所生成的集.设在 内各 相等,在 外各 inn0)(fn0.)(f这表示在实践中,我们不重复地抽 里的个体. 含 个IPn0)1(N115元素,从而, , (44))1()()nNfn0, . (45)0f 0实际操作时,我们可以一个个顺序地抽 ,使抽 合乎n,21 ni1给出的概率 例如当 是
21、简单随机抽样时,我们顺序地取 ,使)()PxfPi每个 被抽中的机会都是 ,但在过程中除去与 重复的,直jIN1121,i到取得 为止这样,任取 ,令n,21 ni0*iA:)(ni,则由(5)得ii*,121)()(1* NnNAPnj 与(44)相合.由 及 的定义易知各 相等,从而fjj, (46)Nnj且在抽样本 时, 是 被抽中(即某 )的机会, 是 一ni1j j0j,道儿被抽中的机会.由 及 的定义易知fj,, , . (47)0,j )1(,Nnj Njj,21,这样,在(43)里,当 时,j, (48)nNfnNnaj )1()1()1(22 及, . (49)nfnaj 1
22、)(122 N16故以 表示 ,则NeNTIR1,nnTn INffefA)1()(1)( nTNnIff)()1(,)(nTnIef从而由(42)及 得NyeT,Njjnn yfyfdVar 1* )()()()1即, (50)2*ynSfdar其中(51).1)(22NySjjy反映 的准确度,但可惜我们不知 ;若找一个 ,用 来估计 ,*dVar* 2ySd)(2yS我们又面临另一不知的 ,形成“鸡生蛋,蛋生鸡”的无止尽循环.为避免dVar这繁琐及危机,我们希望能得到一个 的上界,愈近 愈好. 2y2yS例 :比例的估计(estimation of proportion): (3)设 只
23、有两类:对 个 , ;对 个 , .这样,NjLjjy1LNj0jy便是甲类的比例(proportion),有时以 记 :p,)(p,1)()(1222 NLLNySjy17即,)1,(1)2 pqNSy 从而由(50)得(53)).1()1(* NnpqfnfdVar因,4)2(4)1(由(53) , (50)及 得Nfn;ndVar41*故由切贝谢夫不等式(即(12) )得,0)(2*P从而我们可以用样本大小(sample size) 来控制度量误差 及概率风险n. 例如选 及 ,则)(*dP%5c, (太大方,可改良)05.).(*dP与 竟不相关: 大时,样本大小 不仅不必成比例地上升
24、,而是根本不必上Nn升. 本例虽然简单兼特殊,用途却相当广: 可以代表不合格的产品的比例,可以代表民意(public opinion)测验(poll)时支持某人的程度,将 乘*d以 ,便得 的无偏估计子 :NL*Nd(54) .)(LE例 也可用概率论来处理:在 中随机地取 个,以 代表所(3) N,21 nX得甲类个体的数目,则 ,且 具以 为参数(parameter)的超越nXd* )(L18几何概率函数(hypergeometric probability function) :),(nLNHf, ,xNnLf)( n,21,0,在别处,0)(f其中 代表 中较小的数. 令 因Ln, Z
25、r,)!(nNn由(7)得)1()(rXE Lnx nNxLxLxr0 )!()!()!()()1.Lnrx nNxLx)!()!()!(令 ,则rrxn* ,)1()(XE *0 * )!(!)1() )!()!(!(Lnx nNrnNxLxxr ,)()1()( r 其中最后的 是 概率函数 值 的和:1,(*nLNH*f(*x1)(*0xf19取 ,得1r; (55)npNLXE)()(取 ,得2r, )1()1()( LnnLXE从而由,222 )()1()( XEXEXEVar 得, (56)npqNffnrn1)(1)(. (57)nfnfdVar )()(*习题:设 为一随机实验
26、,结果是 1 及 0,1 的机会为 独立地做 )1,0(p这试验 次: . 令 代表得到 1 的个数 . 证明nn,21 X的概率函数是 f:)(aX,xnxpf)1(,1,0n在别处;,0)(f;b)1(pnXVarpE将(b)与(55)及(56)比较,其中 .)(c NL回想用一、两千人的意见便能相当精确地估计出千万、万万个体的平均意见,令人难不兴奋这里的“精确”涉及小概率风险及小测量误差,并假设我们严格地按既定的抽样法抽样本,认真地量各样本里的个体,可能需要问题清20晰,语文显浅,态度和蔼,立场超然,甚至要挂长途电话及翻山越水须知抽样法是程序(procedure),公平寓于诚实的操作过程
27、(process),抽到这个样本或那个样本的机会都一样,几乎等于 0,并不能保证哪一个样本当选如果不依照给出的抽样法循序进行(run its course),如何能够奢求得到上述惊人的收获?我们在这里强调:理论上,我们抽样本而不是抽个体,更不是抽样品样本及跟随它的决定都是随机的,从而我们可以计算诸决定的平均值、方差、.实用上抽得的样本在数理统计里无容身之地,但它可以供给我们一些感觉,影响数理统计发展的方向及内容一、二重和公式等基础公式都只与抽样法相关到各个体,两个体被抽到机会的和这样“谈谈想想” ,似乎做博导也不能说不配.抽样法多到不可数,实行家宜在理论与实际中决定用哪一个,切不可怀坚持心态,
28、否则会像别的执着一样,迟早会触发悲剧.本节表面上在谈概率与统计,实际上在谈赌.游子情提到乘总统轮去夏威夷途中,一位老太太问渊明:你不觉得人生是赌博吗?西方人研讨赌博,得概率、统计、游戏等理论,应用十分广自古到今,有人赌国家、社会;有人赌自己或几个人让我们抱着“期望”赌摆!每次赌完人生,旁观者的感觉总是像三国演义里说的:滚滚长江东逝水,浪花淘尽英雄.是非成败转头空;青山依旧在,几度夕阳红.白发渔樵江渚上,惯看秋月春风.一壶浊酒喜相逢;古今多少事,都付笑谈中.英雄去,游子归:云海天,山水地,白絮逐波,来伴孤飞雁雁载游子金陵归,夕阳将沉,先染西边艳;梦回乡,醒欲醉,青颜暗褪,奈何情缕累新主不认回乡客,花落泥潭,更添相思泪.(摘自游子情 )到此, “谈谈想想”幕落,读者请回头重看我们的秋月春风:“前言21后语”.