收藏 分享(赏)

概率论与数理统计简明教程.pdf

上传人:HR专家 文档编号:11809885 上传时间:2021-01-21 格式:PDF 页数:16 大小:606.82KB
下载 相关 举报
概率论与数理统计简明教程.pdf_第1页
第1页 / 共16页
概率论与数理统计简明教程.pdf_第2页
第2页 / 共16页
概率论与数理统计简明教程.pdf_第3页
第3页 / 共16页
概率论与数理统计简明教程.pdf_第4页
第4页 / 共16页
概率论与数理统计简明教程.pdf_第5页
第5页 / 共16页
点击查看更多>>
资源描述

1、概率论与数理统计简明讲义 概率论基础 引言 形形色色的概率统计问题 人们在日常生活和生产实践活动中,都会遇到这样或那样的随机现象;下面是其中一些 有趣的问题。先从赌博说起。事实上,概率论正是起源于 17 世纪的赌博问题。由于赌博的 趣味性和吸引力,使得概率论能够发展至今。请看概率论的第一个问题: 问题 0.1:甲乙两人打赌,各押硬币的一面,先出现 6 次者赢 100 法郎。当赌博进行到 5:3 时因故终止,试问应如何分配赌金? 有人说:甲应该得到全部的 100 法郎,因为这个赌博只有两种结果,而现在甲领先; 又有人说:既然比分是 5: 3,那么甲应该得到赌金的 5/8,乙得另外的 3/8。你以

2、为呢? 下面的三颗骰子赌博机问题盛行于狂欢节时的美国中西部和英格兰: 问题 0.2:你从 1 到 6 之中选取一个数字(比如 6),然后机器掷出三颗骰子。如果三颗骰子 出现的三个数字都是你选取的数字 6,机器会支付你 3 美元;如果三颗骰子的数字中有两个 6,机器会支付你 2 美元;如果三颗骰子的数字中仅有一个 6,机器会支付你 1 美元。只有 当你选取的数字没有出现时,你才需要付给它钱仅仅 1 美元。好象这个游戏看起来挺吸 引人的,因为掷三颗骰子,你有三个机会能赢,并且有时你可赢取 1 美元以上,而 1 美元则 是你的最大损失。请问你愿意赌吗?说说你的理由! 在概率统计中,直觉是很重要的,我

3、们常常凭直觉就能得到正确的结论。但是在好多情 况下,直觉会让人误入歧途。我们给出的第 3 个问题大家也许曾经亲眼见到或有所耳闻: 问题 0.3:一个人有三张牌,一张两面都是黑色,一张两面都是红色,一张一面是黑色一面 是红色。他将这三张牌放到帽子里,让你抽一张,但你只能看这张牌的一面。假定这面是红 色,则这张牌肯定不是两面黑色,只能是两面红色或一面红一面黑。他提议和你来场赌博, 他赌这张牌是两面红,赔率是 1 赔 1。你认为公平吗? 问题 0.4:历史上有名的“生日问题”同样说明“直觉”有时真的不是很可靠!假定一年有 365 天,则由著名的抽屉原理可知,任意 366 人中至少有两人同一天生日。也

4、就是说,需要 366 人,才能保证其中至少有两人同一天生日。但是现实生活中,大家可能留意到一个事实: 一个 47 人的班级几乎就有两人同一天生日!这样的结果相信足以引起多数读者好奇的。这 又是怎么回事呢?后面的古典概率模型将给出合理的解释。 问题 0.5:“熊”了几年的中国股市近两年狂“牛”,许多对股票几乎一窍不通的老人家也前 赴后继地投身到股市的洪流中。如果你是一个股民,也知道股市存在风险,自然希望能得到 专家的帮助。但问题是,究竟谁可以算是股市行家呢?如果连续 6 个星期,你都收到某股市 顾问对某种股票行情(上升或下降)正确预言的邮件,那么这名顾问要求你为第七个星期中 这样的预言付费,你愿

5、意吗? 问题 0.6:这是一个医学诊断问题,更应该是一个生活常识。有点医学知识的人也许知道, 用甲胎蛋白法诊断肝癌,准确性是比较高的:由过去的资料估计灵敏度(即癌症患者检测结 果呈阳性的概率)是 95%、特异度(即正常人检测结果呈阴性的概率)是 90%。如果在某 次例行检查(譬如单位每年一度的体检)中,某人的检验结果是阳性,试问:他应该沮丧到 什么程度? 问题 0.7:可预见的梦和巧合问题: 一个人做过一个梦,而梦中的事在现实中出现时,他很难不再相信有预感的存在。你以 为呢? 如果有两个人有难以置信的一系列相同的经历,而发生这种巧合的概率是一万亿分之一 (1/10 12 ),我们是否应该诧异呢

6、? 问题 0.8: 敏感性问题调查:为确定什么样的性行为最容易导致爱滋病,需要了解人群中进 行过某种性行为的人所占的比例。试问:如何设计调查方案? 解答这些形形色色的概率统计问题,需要有足够的概率统计知识。我们从基础开始。 概率论与数理统计简明讲义 概率论基础 第一章 随机事件及其概率 一、 随机事件及其运算 我们把随机现象的某个结果称为随机事件,所有可能基本结果组成的集合称为样本空 间, 记为 。于是,随机事件可以看成是样本空间的元素。借用集合论的概念,事件经过运 算之后得到新的事件: 1. 事件 A 与 B 的并 AB 表示“A 与 B 中至少有一件发生”; 2. 事件 A 与 B 的交

7、AB 表示“A 与 B 都发生”,简记为 AB; 3. n 个事件 的并 12 , n AA AL 1 n i i A = U 表示“n 个事件 中至少有一件发生”; 12 , n AA AL 4. n 个事件 的交 12 , n AA AL 1 n i i A = I 表示“n 个事件 都发生”。 12 , n AA AL 5. 事件 A 的对立称为 A 的对立事件,记为 B A= 。 事件的运算遵循下面的规律,如同集合论一样: ( 1)交换律: ,ABBA=UUABBA= ; ( 2)结合律: () ()A BCABC=UU UU () (), ABC ABC= ; (3 )分配律: ()

8、A BC ABAC= , ()( )( )A BC A B A C=UUU; (4 )对偶律: IU + = + = = 11 k k k k AA ; UI + = + = = 11 k k k k AA 。 事件之间还有下列关系: 1 包含: 若事件 A 的发生必然导致事件 B 的发生,则称事件 B 包含事件 A,记为 BA 。 2 相等: 当事件 B 包含事件 A 且事件 A 也包含事件 B 时,则称事件 A 与 B 相等,记为 A=B。 3 互不相容(或互斥) 若两事件 A 与 B 不可能同时发生,即 AB= ,则称事件 A 与 B 互不相容。 二、 随机事件的概率与条件概率 随机事件

9、可能发生,也可能不发生。我们无法预测随机事件是否发生,只能考虑随机事 件发生的可能性的大小。直观上说,随机事件发生的可能性大小就称为随机事件的概率. 那么如何求随机事件的概率?下面是一非常简单的问题: 问题 1.1:如何求抛一硬币时正面朝上的概率 ? 比较直观的方法就是重复做试验,这就是人们常说的频率方法(统计方法): 重复抛一均匀硬币 n 次,则当 n 充分大时, 正面朝上的频率 m/n 可作为概率 p 的估计. 一般地,独立重复试验 n 次,当 n 充分大时,可把事件 A 出现的频率 n A Af n n )( )( = 作 为 A 的概率 P(A)的近似值。这是由大数定律保证的。 但是,

10、统计方法只能得到概率 P(A)的近似值。实际上,在许多情况下,我们可以通过建 立数学模型来求概率的准确值。古典概型是常见的一种概率模型。 数学模型是在一定的假设条件下建立起来的。为了利用古典概型解决上面的问题,需要 对硬币作些假设。通常假定硬币是均匀的,这就意味着结果出现正面和反面的可能性是一样 的,于是满足古典概型的要求。按照古典概型中概率的计算方法,我们马上得到抛一均匀硬 币时正面朝上的概率 p=1/2. 一般地,我们把满足下面两个条件的概率模型称为古典概型: ()样本空间只包含有限个不同的基本事件; ()每个基本事件出现的可能性相等. 在古典概型中,如果基本事件总数为 N,事件 A 所包

11、含的基本事件数为 M( M N ), 则 () M PA N = 。 利用古典概型,我们比较容易解决第一节中的“生日问题”。 概率论与数理统计简明讲义 概率论基础 问题 0.4:一个 47 人的班级为什么几乎就有两人同一天生日? 同上面一样,为了利用古典概型解决问题,需要对问题作些假设。一般的假设条件就是: 对任何人来说,他在一年中的每一天出生的可能性都是一样的。在这样的模型假设下,问题 就变成古典概率模型中的概率计算问题了。于是,任意 47 人中至少有两人同一天生日的概 率为 %5.95 365 1 47 47 365 = P p ;这样大概率的事件我们可以认为它应该发生。这就是在古典 概率

12、模型下我们对“生日问题”给出的看起来还算合理的解释。 有读者或许要问,你怎么可以作上面那样的假设,认为任何人在一年中的每一天出生的 可能性都是一样?一方面是直觉,好象没有太多原因说明一年中的哪一天出生的人数比其它 时候多一些。另一方面,我们可以通过收集真实的数据,对古典概率模型的假设进行统计检 验。建议有兴趣的读者自己亲自动手实践一下。 在大多数场合,人们需要考虑所谓的条件概率,它是指事件 B 已经发生的条件下,事 件 A 发生的概率,记作 (|)P AB。先看下例: 问题 0.1:甲乙两人打赌,各押硬币的一面,先出现 6 次者赢 100 法郎。当赌博进行到 5:3 时因故终止,试问应如何分配

13、赌金? 有人说:甲应该得到全部的 100 法郎,因为这个赌博只有两种结果,而现在甲领先。这 种分法显然不大合理,因为暂时的领先并不足以保证最后的胜利。法国数学家、哲学家 Pascal 首先解决了这个问题:考虑比分是 5:3 的条件下,甲乙两人能赢的可能性分别有多大。 事实上,最多再扔三次硬币赌博就可以分出输赢。在所有可能的 8 种结果中只有 1 种情 况乙赢,在 硬币是均匀 的条件下概率是 1/8;因此乙只能得到赌金的 1/8,甲应得 7/8。 本例是直接利用古典概型求条件概率的。但有时,看似简单的问题反而容易让人上当。 问题 0.3:一个人有三张牌,一张两面都是黑色,一张两面都是红色,一张一

14、面是黑色一面 是红色。他将这三张牌放到帽子里,让你抽一张,但你只能看这张牌的一面。假定这面是红 色,则这张牌肯定不是两面黑色,只能是两面红色或一面红一面黑。他提议和你来场赌博, 他赌这张牌是两面红,赔率是 1 赔 1。你认为公平吗? 乍一看,好象公平:这张牌有两种可能,他赌其中一种,你猜另一种。但骗人的地方就 在于,你只有一种情况(这张牌看见的那面是“红黑”牌的红面)能赢,而他却有两种情况 (这张牌看见的那面是“红红”牌的一面或另一面)能赢,因此他赢的概率为 2/3,不公平。 * 三、概率的公理化定义 上面的概率和条件概率的概念都是直观意义上的,现在给出它们的公理化定义如下: 1设 为样本空间

15、, F 为 的某些子集构成的事件域,称 F 上的实值函数 P 为概率,如果 (1) P()=1; (2) 若 AF ,则 P(A)0 ; (3) 若A 1 , A 2 , A n ,互不相容,则 。 + = + = = 11 )()( k k k k APAP U 三位一体的( ,F,P)称为概率空间,它可作为描述随机现象的数学模型。 2设 ,则在事件 B 已发生的条件下, 事件 A 的条件概率定义为 () 0PB () (|) () PAB PAB PB = 。 四、概率的性质和基本计算公式: 1 不可能事件的概率为 0,即 0)( =P ; 2 概率的有限可加性:若A 1 , A 2 ,

16、A n 互不相容,则 ; = = n k k n k k APAP 11 )()( U 3 概率的单调性:若 BA ,则 )()( BPAP ; 4 概率的下连续性: ; U LL + = + = 1 21 )()(lim, k kk k k APAPAAA 则若 概率的上连续性: ; I LL + = + = 1 21 )()(lim, k kk k k APAPAAA 则若 概率论与数理统计简明讲义 概率论基础 5 对立事件的概率计算公式: )(1)( APAP = ; 6 概率的加法公式: ; ( ) () () ( )PA B PA PB PAB=+U 7 概率的乘法公式: ,如果 。

17、 ( ) ()( | )PAB PBPAB= () 0PB 8 全概率公式: ,如果 ,)|()()( 1 i i i BAPBPAP + = = = + = U 1i i B ij BB = ( i )。 j 注:利用全概率公式可把复杂事件的概率化为互斥的简单事件的概率来计算。 9 Bayes 公式: + = = 1 )|()( )|()( )( )( )|( i ii jjj j BABBP BAPBP AP ABP ABP ,如果 , = + = U 1i i B ij BB = ( )。 i j 注:知道结果找原因用 Bayes 公式计算。 由概率的公理化定义以及条件概率的数学定义,不

18、难证明上面概率的性质和计算公式。 我们更希望大家熟练运用它们解决实际问题。下面是一些范例: 问题 0.6:用甲胎蛋白法诊断肝癌,灵敏度是 95%、特异度是 90%。如果在某次例行检查(譬 如单位每年一度的体检)中,某人的检验结果是阳性,试问:他应该沮丧到什么程度? 答案是令人惊讶的,他甚至应该保持谨慎乐观的态度。为什么呢?我们只须计算出检验 结果是阳性的条件下他患肝癌的概率就可以了。 现在已知的只是癌症患者检测结果呈阳性的概率和正常人检测结果呈阴性的概率,为了 利用 Bayes 公式计算检验结果是阳性的条件下他患肝癌的(后验)概率,还需要知道人群中 肝癌的罹患率。根据广州市 1999 年的调查

19、资料,我们可以假设人群的肝癌发病率大约为 0.02%,则由 Bayes 公式容易得到他患肝癌的条件概率为 %19.0 %)901(%)02.01(%95%02.0 %95%02.0 = + 。 这么小的概率自然不值得他担心。 不过要注意,如果他复查时检验结果还是阳性,则他患肝癌的概率将增加到 1.78%。 问题 0.8: 为确定什么样的性行为最容易导致爱滋病,需要了解人群中进行过某种性行为的 人所占的比例。试问:如何设计调查方案? 最简单的调查方案是:随机调查 n 人,如果其中回答“ 是” 的有 k 人,则比例 p 的一个估 计为 。但是这样得到的估计值往往偏低,因为显然有人会说谎!现在面对的

20、是社 会调查中的一类特殊问题,属敏感性问题调查。设计调查方案,关键一点是要保护个人隐私, 被访者才有可能真实作答。下面给出两种可行的设计方案,大家可以做一比较。 nkp / = 方案 1:准备一密封罐,罐中装有若干红球和白球(已知红球的比率为 )。随机调查 n 人,先摸球再答题。若摸得红球,则须如实回答;否则说谎。 记回答“ 是” 的人数为 k,则由全概率公式得 P(是)= P(上) P(是|上) + P(下) P(是| 下) 。 于是当 n 充分大时,我们有 )1)(1( ppnk += 。 解之得,p 的估计为 12 )1( = nk p 。 请注意,本方案首先要求 21 ;进一步, 该如

21、何选择,得到的 p 的估计比较好 ? 方案 2:准备一密封罐,罐中装有若干红球和白球(已知红球的比率为 )。随机调查 n 人,先摸球再答题。若摸得红球,则须如实回答;否则回答另一问题:生日是否在上半年 ? 记回答“ 是” 的人数为 k,则由全概率公式得 P(是)= P(上) P(是|上) + P(下) P(是| 下) 。 于是当 n 充分大时,我们有 2)1( += pnk 。 解之得,p 的估计为 2)1( = nk p 。 方案 2 要求 0 。一个遗留的问题是: 又该如何选择,得到的估计较好 ? 我们都听说,吸烟危害健康。到底怎么回事呢?还是让数据说话吧! 问题 1.2: 1950 年某

22、地区曾对 5060 岁的男性公民进行调查,结果发现,肺癌病人和无肺 概率论与数理统计简明讲义 概率论基础 癌的吸烟比例差不多,两者分别为 99.7%、 95.8%。这很难看出吸烟有多大危害。那么请问: 该如何说明吸烟的危害 ? 自然我们首先考虑吸烟的条件下患肺癌的可能性(即吸烟人群中的肺癌发病率)有多大。 欲利用 Bayes 公式,需要知道整个人群的肺癌发病率。假设人群的肺癌发病率是 0.01%,则 4 1004.1 %8.95%)01.01(%7.99%01.0 %7.99%01.0 )|()()|()( )|()( )|( + = + = 无肺癌吸烟无肺癌肺癌吸烟肺癌 肺癌吸烟肺癌 吸烟肺

23、癌 PPPP PP P 这就是说,在吸烟的条件下患肺癌的可能性非常小(只有 0.01%),吸烟的危害性似乎 不足挂齿!但是,另一方面,我们求得不吸烟的条件下患肺癌的概率仅为 6 1014.7 %8.951%)01.01(%7.991%01.0 %7.991%01.0 )|( + = )()( )( 不吸烟肺癌P 于是吸烟患肺癌的可能性是不吸烟的 14.6 倍。因此可以得出结论:还是不吸烟的好! 五、事件的独立性和伯努利概型 1 称两事件 A 与 B 相互独立,如果 P (AB)=P(A)P(B)。 2 称事件A 1 , A 2 , A n 相互独立,如果对其中任意的k (2 kn)个事件 ,都

24、有 k jj AA , 1 L = = k i j k i j ii APAP 11 )()( I 。 3 伯努利概型:将一试验独立重复 n 次,这一系列试验就称为 n 重伯努利概型。 设每次试验中事件 A 的概率为 p (0pP(白| 乙) ,故可推断白猫来自甲箱! 注意:严格说来,应该比较后验概率的大小。上面推断正确的原因在于 P(甲)= P(乙) 时, 概率论与数理统计简明讲义 概率论基础 P(白| 甲) P( 白| 乙) 等价于 P(甲| 白) P(乙| 白) 。 由黑猫白猫问题,引出最大似然原理: 估计参数,使得事件发生的概率最大 ! 问题 1.7: (捕获再捕获问题): 如何知池中

25、鱼几何? 先抓 50 条,做记号放回;再抓 20 条,如果发现有记号 5 条,试估计池中鱼数 n? 令 A=“再抓 20 条,发现有记号 5 条” ,则 20 520 50 5 50 )|( n n C CC nAP = 。 由最大似然原理,找 之最大值点作为 n 的估计。因 )|( nAPp n = 20011 20011 20011 )15501)(1( )201)(501( 1 =+= + k p 1 1 = k k p 。 2常用离散型随机变量的分布列: (1 )二项分布( ,其中 ,),( pnBX 1n 10 p ): () (1) kk n n PX k C p p k = ,

26、0,1, 2, ,kn= L 。 可描述 n 重 Bernoulli 概型中 “成功” 的次数. 特例:X B(1, p)(其中 10 p )称为 0-1 分布。 (2 )几何分布( ,其中 )( pGX 10 ): () ! k PX k e k = , 。 0,1, 2,k = L 可描述稀有事件出现的次数,如单位时间内的地震次数、事故次数、重要的战争次数、 患病人数、顾客数、候车人数、上课迟到人数;单位面积布匹上的疵点数、每页上的印刷错 概率论与数理统计简明讲义 概率论基础 误数等等。 注:二项分布和 Poisson 分布应用相当广泛,又关系密切。当 n30, , 时,二项分布 近似于

27、Poisson 分布 。Poisson 定理从理论上保证了这一点: 1.0 n p 10 n np ),( n pnB )( n npP 定理 2.1:若 = + n n nplim (0),则 0, ! )1(lim = + me m ppC m mn n m n m n n 。 问题 2.2:( 1) 设鸡在正常情况下感染某种传染病的概率为 0.2,新疫苗A 注射 11 只鸡后无 一感染,请问疫苗有效吗 ? 聪明的读者马上联想到用假设检验进行统计推断。假设疫苗无效,则 11 只鸡无一感染 的概率是 ,在显著性水平 =0.05 下没有充分理由拒绝假设,不好认为疫苗有效! 086.08.0 1

28、1 = 注: 上面的概率 0.086 在假设检验中称为检验的 p 值,只有当 p 值不超过预先给定的显 著性水平,才有充分的理由拒绝原假设。 在显著性水平 =0.05下,注射 14(或以上)只鸡无一感染才能认为疫苗 A有效 ( p=0.044)。 ( 2) 疫苗 B 注射 22 只鸡后仅感染 1 只,试问疫苗有效吗 ? 假设疫苗 B 无效,则 22 只鸡至多感染 1 只的概率是 ,在 显著性水平 =0.05 下有充分理由拒绝假设,因此可认为疫苗 B 有效! 048.02.08.08.0 211 22 22 =+C 注:检验的 p 值越小,疫苗越有效! 保险险种的设计很有讲究,既不能每年保费过高

29、,使顾客“望洋兴叹”,死亡赔偿金也 应达到一定水平,让人觉得物超所值;还要保证保险公司赚钱。不学概率统计,那怎么行呢? 问题 2.3:( 1) 设有 10000 人投人寿保险,每年保费 200 元,死亡赔偿金 100000 元。若他 们的死亡率为 0.001,求保险公司盈利 500000 元以上的可能性大小。 易知,保险公司盈利 500000 元当且仅当年死亡人数 X 不超过 15。由 Bernoulli 概型, XB(10000,0.001),故所求概率为 9513.0)001.01(001.0)15( 15 0 10000 10000 = = m mmm CXP 。 上式的计算非常复杂,也

30、没有现存的表可查。如果利用 Poisson 分布表,困难迎刃而解。 事实上,由 Poisson 定理,X 近似服从分布 P(10),故所求概率为 951.0 ! 10 )15( 15 0 10 = = m m e m XP 。 ( 2) 若其它条件不变,则要以 95%以上的概率保证保险公司至少盈利 1000000 元的最 低年保费 a 应为多少? 由上可知,年死亡人数 X 不超过 15 人的概率刚好大于 95%,因此应有 10000a-151000001000000 , 故取 a=250 即可。 问题 2.4: 设有 80 台同类型设备,各台工作是相互独立的,发生故障的概率都是 0.01, 且

31、一 台设备的故障能由一人处理。请问:需要几个维修工人,才能以 95%以上的概率保证设备 发生故障可得到及时修理? 以 X 表示 80 台设备中同时发生故障的台数,则 XB(80,0.01) 或 P(0.8)。 设需要请 m 个维修工人,则问题要求 P(Xm )0.95 。查 Poisson 分布表知,m =2 即可。 这样我们得到 方案一 :由 2 人共同维护 80 台设备; 如果各人自扫门前雪,那么就有 方案二 :由 2 人维护,每人负责 40 台。 以 Y 表示 40 台设备中同时发生故障的台数,则 YB(40,0.01) 或 P(0.4)。 于是 80 台设备发生故障可得到及时修理的概率

32、是 。 881.09384.0)1( 22 =YP 这个概率比方案一的 95.3%要小一些;因此两个方案就效率而言,还是方案一好! 问题 2.5: 假设某商场一天来的顾客数X P(),而每个顾客购物的概率为 p, 试求商场一天 内购物的顾客数Y 的分布。 根据题设条件,可以利用 Bernoulli 概型得到, 。 再由全概率公式可知,商场一天内购物的顾客数 Y 的分布列为 mnmm n ppCnXmYP = )1()|( 概率论与数理统计简明讲义 概率论基础 + = = mn nXmYPnXPmYP )|()()( + = = mn mnmm n n ppCe n )1( ! + = = 0

33、! )1( ! )( k km k p e m p )1( ! )( p m ee m p = .,2,1,0, ! )( L= me m p p m 因此商场一天内购物的顾客数 YP(p)。 二、连续型随机变量 问题 2.6: 2005 年全国新生婴儿大约 19000000,如何描述他们的体重 ? 学习了离散型随机变量以后,我们可以用离散型随机变量及其频率直方图( 图 a,b)来描 述新生婴儿的体重。图 a,b 的不同之处在于划分的区间长度 x 不一样。 O 4 5 6 7 8 9 10 x 图a P/x O 4 5 6 7 8 9 10 x 图b P/x O 4 5 6 7 8 9 10

34、x 图c p(x) (1) 当 x=1时, 体重的频率直方图见图 (a). 图中矩形宽度为1, 高度为 频率,所有矩形面积之和为1. 此时体重 X 是离散型随机变量, 取值为4,5,6,7,8,9,10. (2) 当 x=0.33时, 体重的频率直方图见图 (b). 图中矩形宽度为0.1, 高度为频率/0.33,所有矩形面积之和仍为1. (3) 当 x0时, 体重的频率直方图趋于图(c)所示的一条光滑曲线 p(x). 此时体重 X 变成连续型随机变量, p( x) 就是 X 的密度函数, 它与 x 轴所夹的面积仍为1. 我们看到,将体重 X 作为连续型随机变量,用密度函数 p(x)来描述它取值

35、的统计规律, 要比将 X 视为离散型随机变量,用频率直方图描述来得方便,至少从数学模型的角度来说 是这样的。现在给出连续型随机变量的定义。 1定义: 称 X 为具有密度函数 p(x)的连续型随机变量,如果 ba ,都有 = b a dxxpbXaP )()( . 密度函数有两条基本性质: (1) ; (2) 。 0)( xp 1)( = + dxxp 上面只介绍了现实世界中常见的两类特殊随机变量。对于一般的随机变量,我们用分布 函数来刻画它取值的统计规律。下面给出其中的一种数学模型,别的定义方式可看参考文献。 2随机变量及其分布函数 定义:对概率空间( ,F,P),称定义在 上的实函数 X()

36、为随机变量(简记为 X),如 果 ,都有 : X()x F。随机变量 X 的分布函数定义为 ),( +x () ( )Fx PX x=, x 。 注意,有人定义分布函数 )()( xXPxF = , x ;也可定义为其它形式,关 键是要能完整刻画随机变量取值的统计规律,即由此可计算随机变量任意取值的概率。我们 这里由分布函数计算概率的基本公式是: 122 ()()Px X x Fx Fx 1 () = ,其中 12 x x 。 概率论与数理统计简明讲义 概率论基础 分布函数有三条基本性质: (1 )单调性: ; )()( 2121 xFxFxx (2 )正则性: 0)(lim)( = xFF

37、x , 1)(lim)( =+ + xFF x ; (3 )右连续性:F( x+0)= F(x). 离散型随机变量 X 的分布函数为 = xx i xx i ii pxXPxXPxF )()()( ; 连续型随机变量 X 的分布函数为 。 = x dttpxXPxF )()()( 对密度函数 p(x)的连续点有:(1 ) )()( xpxF = ;( 2)P( xX x+x)p (x)x。 3常用连续型随机变量及其密度函数与分布函数: (1 ) , 上的均匀分布( ,其中ab , baUX ba ): = = .,0 , 1 1 )( )( 其它 bxa abI ab xp bxa ): )0

38、( )( = x x Iexp , 。 )0( )1()( = x x IexF 可描述电子元件、动物的寿命;排队的服务时间. (3 )标准正态分布( ): )1,0( NX ) 2 exp( 2 1 )( 2 x x = , = x dt t x ) 2 exp( 2 1 )( 2 。 标准正态分布函数值有表可查:(1.645)=0.95, (1.96)=0.975,(-1.645)=0.05。 一般正态分布( ,其中),( 2 NX 0 ): ) 2 )( exp( 2 1 )( 2 2 = x xp , )()( = x xF , 可描述测量误差; 信号噪声;考试成绩; 产品的质量指标;

39、 生物的生理指标等等。后面的中 心极限定理告诉我们:大量独立同分布的随机变量的和近似正态分布! 问题 2.7: 假设机床加工的部件长度X服从正态分布 ,部件的长度在 10),10( 2 N +0.01 内才 算作合格品。要使合格率达到 99%,应当如何控制加工精度 ? 题目要求 ,由一般正态分布函数计算公式不难得到 %99)01.0|10(| XP %991)01.0(2 ,即 995.0)01.0( 。 查标准正态分布函数表,有 58.201.0 ,故 00388.0 。 注: 由 P(|X - | , 1| ): + = 2 2 2 2 21 21 2 1 2 1 2 2 21 )()(

40、2 )( )1(2 1 exp 12 1 ),( yyxx yxp 定理 2.2:若 ,则 ),(),( 2 2 2 121 NYX (i ) , ; ),( 2 11 NX ),( 2 22 NY (ii)X 与 Y 独立的充要条件是 =0(即后面称的 X 与 Y 线性无关)。 问题 2.9: 2005 至 2006 年发行的广东篮球彩票竞猜的是美国NBA 单场比赛四节的胜平负(共 81 种可能) 和终场比分( 共 2601 种不同的结果,其中 70 分包含小于 70, 120 分包含大于 120), 全部猜对才算中奖。如果只关心单场比赛的终场比分,那么应该如何描述呢? 虽然单场比赛的比分取

41、值是离散的,但总共有 51 2 =2601 种可能,如果用二维离散型随 概率论与数理统计简明讲义 概率论基础 机变量来描述,会相当麻烦,我们考虑引入连续型随机变量,而建立概率统计模型的依据是 NBA 2004 -2005 赛季常规赛与季后赛的 1307 组数据。先按有无加时进行统计分组,再利用 如散点图等统计方法对问题进行量的分析,并结合对问题质的分析,我们提议对无加时和有 加时的单场比分均构造二维正态模型,即认为相应的主、客队得分分别为 , ,密度分别为 ),(),( 1 2 12 2 11121111 NYX ),(),( 2 2 22 2 21222122 NYX + = 2 12 2

42、12 1211 1211 1 2 11 2 11 2 1 2 11211 1 )()( 2 )( )1(2 1 exp 12 1 ),( yyxx yxp + = 2 22 2 22 2221 2221 2 2 21 2 21 2 2 2 22221 2 )()( 2 )( )1(2 1 exp 12 1 ),( yyxx yxp 又设需要打加时赛的概率为 ,于是 NBA 2004 -2005 赛季主、客队的得分 (, e p )X Y 的 联合密度为 ),(),()1(),( 21 yxppyxppyxp ee += 。 至于其中的未知参数,基于上面的数据,容易得到它们的最大似然估计值分别为

43、 %4.6 = e p , , 41.0,7.11,6.11,9.94,1.98 112111211 = 89.0,8.11,5.10,0.107,7.106 222212221 = 。 这样,描述 NBA 2004 -2005 赛季常规赛与季后赛单场比赛的终场比分的概率统计模型就完 全确定了;其中的最大似然估计请见后面的数理统计方法。 3随机变量函数的分布 概率统计中还会用到一些分布,它们是由前面介绍的常用分布构造出来的。 定理 2.3:若 , 则 ),( 2 NX (1) 标准化随机变量 )1,0()( * NXX = ; (2) ; ),( 22 bbaNbXa + (3 ) 服从对数正

44、态分布。 X eY = 定理 2.4:设 相互独立。 n XX , 1 L (1 )若 , ,则 ; ),( 2 iii NX ni ,1 L= ),( 1 2 11 = n i i n i i n i i NX (2 )若 , ,则 ; ),( pnBX ii ni ,1 L= ),( 11 pnBX n i i n i i = (3 )若 )( ii PX , ,则 ; ni ,1 L= )( 11 = n i i n i i PX (4 )若 , ,则 (负二项分布); )( pGX i ni ,1 L= ),( 1 pnNbX n i i = (5 )若 )( eX i , ,则 (G

45、amma 分布); ni ,1 L= ),( 1 nGaX n i i = (6 )若 , ,则 ( 分布); )1,0( NX i ni ,1 L= )( 2 1 2 nX n i i = 2 定理 2.5:设 X 与 Y 相互独立,且 , ,则)1,0( NX )( 2 nY )( nt nY X t = 。 定理 2.6:设 X 与 Y 相互独立, 且 , ,则)( 2 nX )( 2 mY ),( mnF mY nX F = 。 第三章 随机变量的数字特征 回到问题 0.2,你从 1 到 6 之中选取一个数字(比如 6),然后机器掷出三颗骰子。如果 三颗骰子出现的三个数字都是你选取的数

46、字 6,机器会支付你 3 美元;如果三颗骰子的数字 中有两个 6,机器会支付你 2 美元;如果三颗骰子的数字中仅有一个 6,机器会支付你 1 美 概率论与数理统计简明讲义 概率论基础 元。只有当你选取的数字没有出现时,你才需要付给它钱仅仅 1 美元。好象这个游戏看 起来挺吸引人的,因为掷三颗骰子,你有三个机会能赢,并且有时你可赢取 1 美元以上,而 1 美元则是你的最大损失。请问你愿意赌吗? 可以从两方面考虑问题。若是抱着玩的心态,只赌一两次,输了也无所谓,那就赌呗! 但是如果有足够的赌本,准备与赌博机好好切磋的话,那就要研究你输赢的理论平均值。 令一次赌博你可赢 Y 美元,则其分布列为 Y

47、-1 1 2 3 P 125/216 75/216 15/216 1/216 于是 Y 的期望平均值(即取值与相应概率的乘积之和)是 E(Y)= -1 125/216+1 75/216+2 15/216+3 1/216= -17/216- 0.08。 即是说,长此以往下去,你平均会输 8 美分;当然不应该赌了! 从本例可知,虽然分布函数全面刻画了随机变量取值的统计规律,但有些问题需要从侧 面描述随机变量某方面的数字特征,比如平均水平、离散程度等等。 一、 数学期望 1. 离散型随机变量 X 的数学期望定义为 = 1 )()( k kk xXPxXE 。 我们要求级数绝对收敛,使得级数的和(即随

48、机变量的平均值)与各项的排列顺序无关。 问题 3.1: 美国二战期间大量征兵,需对应征者验血。若按常规将每人的血分别检验,则平 均每人需要检验一次。有什么办法可以减少验血的工作量呢 ? 统计学家提出分组检验方法:每 k 人一组,混合血液检验。如果检验结果为阴性,就说 明这 k 人都没问题,一次检验即可;否则这组人中至少有一个有问题,需要再逐个检验,总 次数为 k+1。设平均每人检验次数为 X,若检验的阴性率为 q,则 X 的分布列为 k qkXP = )1( , k qkXP =+= 1)11( 于是 kkk qkqkqkXE +=+= 11)1)(11(1)( 。 故只要 111 , 分组方法就可减少验血次数,而且还可选择适当的 k 使其达到最小。譬如,若 q=0.99,则 k=11 时,平均验血次数最少,验血工作量可减少 80%左右,效率真的提高不少哟! 2. 连续型随机变量 X 的数学期望定义为 ,如果上述广义积分绝对收 敛,其中 是 + = dx

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 学术论文 > 管理论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报