收藏 分享(赏)

概率模型简介.ppt

上传人:天天快乐 文档编号:778413 上传时间:2018-04-23 格式:PPT 页数:74 大小:1.83MB
下载 相关 举报
概率模型简介.ppt_第1页
第1页 / 共74页
概率模型简介.ppt_第2页
第2页 / 共74页
概率模型简介.ppt_第3页
第3页 / 共74页
概率模型简介.ppt_第4页
第4页 / 共74页
概率模型简介.ppt_第5页
第5页 / 共74页
点击查看更多>>
资源描述

1、概 率 模 型 简 介,滕加俊,前言离散概率模型简介 连续概率模型简介统计简介,目 录,统计简介,前 言,概率是一个常见的和直观的概念,在这一章我们开始概率模型的讨论,不像正规的概率论那样先介绍一些背景知识,我们将以很自然的方式引入在实际问题的研究中出现的概率论的基本概念。,前 言,例1 骗人的平均数 周先生看到一家公司在招聘职员,广告中称该公司的人均月收入达1200元,高级职员可拿到1500元,便欣然前往应聘。 公司经理对他的工作能力很满意,当场拍板录用周先生。可是等到月底发工资,周先生只拿到了600元,便去找经理理论。,前 言,周先生对经理说:“你骗了我,财务主管说普通职员的工资只有600

2、元,而你们在广告上却说平均工资是1200元。”经理笑眯眯地回答说:“坐下,坐下,不要激动嘛。这是上个月公司的人员工资表,你先看一看。,前 言,“你来之前公司在册的有10人,大家的平均收入为1200(元) 应该没有什么错误吧?”周先生听罢,只好自认倒霉,一走了之。,算术平均数是统计学中的一个极具迷惑性的平均指标,当样本数据较少且其中有若干个值特别大或特别小的时候尤甚。为了避免这种情况的发生,在一些需要靠评委打分来定高低的体育和艺术竞赛中,通常都采用去掉一个最高分,去掉一个最低分,然后再作算数平均的方式来解决。,前 言,前 言,在统计学中,则做得更彻底。当数据有奇数个时,我们取按大小顺序排列居中的

3、那个数,当数据有偶数个时,就取中间两个数的算术平均数来代替,并称之为中位数。在人口统计学中,就是采用年龄中位数来作为年龄的平均指标的。 在周先生的问题中,公司全体人员工资的中位数为800(元) 这个数值显然要比1200元更接近于事实。,前 言,当然,周先生应聘时需要知道的既不是工资的算术平均数,也不是中位数,而是众数,即数据中出现次数最多的数。如果周先生事先知道这家公司人员工资的众数是600元,他就不会上这个当了。,前 言,例2 会说话的数字 一位青年为抢救两名落水儿童而英勇献身,英雄的事迹传遍了四面八方,于是各种报道、评论纷至沓来,让人目不暇接。 甲报:“这时,英雄的心里只有一个念头:救孩子

4、要紧!他来不及脱下身上的衣服,就纵身一跃,跳下了这条水深达8米的湍急的河流,奋不顾身地向落水儿童去。”,前 言,乙报:“英雄倒下去了,倒在一条平均深度不足1.8米的小河里。当他筋疲力尽的时候,那些站在岸边袖手旁观的人们没有一个肯伸出援手,甚至连一个愿意去报警的人都没有。两名落水儿童得救了,可是又有谁能来救救这些麻木的灵魂。”,前 言,看了这些报道,你恐怕不敢相信他们说的是同一件事。为了加强文章的感染力和说服力,两位作者都采取了让数字说话的方法,只可惜8米指的是水的最深处,1.8米指的是平均水深,与英雄牺牲的地方看不出有什么关系。数字本身没有错,出错的是人。,离散概率模型简介,解决问题的数学建模

5、方法包括五个步骤: 1. 提出问题 2. 选择建模方法 3. 推导模型的数学表达式 4. 求解模型 5. 回答问题,离散概率模型,离散概率模型,例3.1 一个电子元件厂生产一种二极管。质量控制工程师负责保证在产品出厂前检测出次品。估计产品中有0.3%的次品。可以对每个二极管进行检验,也可以把若干个串联起来进行检验。如果通不过,说明其中一个或几个是次品。已知检验单个二极管花费是5分钱,检验一组n个是4+n分钱。如果一组没通过,需要逐个检测该组以寻找次品。要求寻求检测次品二极管的步骤使得花费最少。,离散概率模型,我们使用五步法。图3.1综述了第一步的结果。变量是决策变量,同时随便选取,变量C是所选

6、择的质量控制步骤的随机的果。是一个随机变量,然而量不是随机的,它表示随机变量的平均或期望值。,离散概率模型,变量: n=每个检验组内二极管的数目 C=一组元件的检验费用 A=平均检验费用(分/二极管) 假设: 如果n=1,则A=5分 否则(n1),我们有,全部二极管都是好的,则 C=(4+n) 如果有次品,则C=(4+n)+5n 目标:求n的数值,使A最小,离散概率模型,第二步是选择建模的方法。我们将使用离散的概率模型。 考虑一个随机变量X,可以选取一个离散数值集合中任何一个数值 同时假设 的概率是 ,记为 显然有,离散概率模型,因为X以概率 取数值 ,所以X的期望一定是 的加权平均,权值就是

7、 ,可以写为 这一组概率值 表明了随机变量X的分布。,离散概率模型,例3.2 在一个掷骰子游戏中,同时掷两个,庄家按两个骰子所示的点数给你同等面值的美元,要付多少钱你才愿意玩这个游戏? 用X表示骰子所示点数,一共有6*6=36种可能的结果,每种结果等可能的,只有一种方式投出2点,因此有 有两种方式投出3点,因此有,离散概率模型,X的期望值是 或 . 多次重复这个游戏你将每一次赢得7元,因此如果你每一次游戏所付出的费用不超过7元,它就值得去玩。,离散概率模型,离散概率模型,更加特别的是,若你一次次玩这游戏,用 表示第n次所赢得总数,每个 有相同分 布,并且每个 独立。由一个定理称为“强大数定理”

8、:对于独立同分布随机序列 , , ,具有有限的 ,我们有 (2) 当 时以概率1成立。换句话,即你长时间玩该游戏,你可以每次赢7美元。,离散概率模型,独立性的正式定义为:令Y,Z表示两随机变量, 和 称Y,Z独立,如果 (3),离散概率模型,例如,Y,Z表示第一个和第二个骰子出现的点数,则 对每个可能的结果都一样。Y,Z独立,第一个和第二个骰子出现的点数没关系。 再看例3.1,对于任何n1,随机变量C取两个可能数值的一个:若所有二极管都是好的,则 C=4+n,离散概率模型,否则 C=(4+n)+5n 因为我们必须重新检验每个二极管,用p表示每个二极管是正品的概率,剩下的可能性为1-p。则平均值

9、或期望为,离散概率模型,第四步,一共有n个二极管,一个二极管为次品的概率是0.003。假设每个二极管相互独立,于是一组二极管全是正品的概率是 。则C的期望为,离散概率模型,每个二极管平均检测费用 强大数定理告诉我们如果一直使用一组有n个二极管检验的方法,这公式提供了平均的检测费用。这时我们要用n的函数极小化A.,离散概率模型,第五步给出结论。对于检验二极管次品的质量控制步骤可以用分组检验的方法做得非常经济. 逐个检验的花费是5分/个. 次品的二极管出现得很少,每一千个中只有3个,使用每一组17个二极管串联起来分组化验,在不影响质量的前提下可以将检验的费用降低三分之一(1.5分/二极管)。,离散

10、概率模型,这类问题中灵敏性的分析是关键。质量控制步骤的实行依赖于若干模型之外的因素。也许操作的特殊性对于10个或20个一批或者n是4或5的倍数时检验更容易。好在对问题而言,n等于10和35之间检验的平均花费没有明显变化。在操作过程中次品率q=0.003同样必须考虑,,离散概率模型,例如这个数值可能随工厂环境发生变化。将上面模型推广,我们有 在n=17时有 于是q的微小变化很可能不会导致检测费用大的变化。,更一般的稳健性分析要考虑独立性的假设。我们必须假设在操作过程中接连出现次品的次数之间是无关的。事实上,有可能由于生产环境中一些异常原因使得次品出现在一些批次中,这是,独立随机模型的数学分析就不

11、能完全处理这问题。,离散概率模型,离散概率模型,在下一章介绍的随机过程的模型可以描述某些具有依赖性的问题。有关稳健性的问题是当前概率论研究中的活跃的分支。实际上,模拟的结果倾向于表明独立随机变量的期望值是稳健的,更重要的是,通过经验人们发现,许多情形下,这种模型为现实的生活提供了有用的和精确的近似。,连续概率模型简介,连续概率模型简介,这一节,我们研究基于取值连续的随机变量的概率模型。这些模型在表示随机变量的时间上为我们提供了很大的方便。所需要的数学理论除了使用积分来代替求和之外完全类似于离散的情况。,连续概率模型简介,例7.3 “I型计数器”可以用来测量可裂变物质的样品放射性的衰变。衰变是以

12、未知的速率随机发生的,计数器的目的就是测量衰变率。每一次放射性衰变就要把计数器锁住3 秒,在这段时间内所发生的任何衰变都不会被计数。如何调整计数器接受的数据以考虑丢失的信息?,连续概率模型简介,我们使用五步法。 第一步的结果为:,连续概率模型简介,变量: 衰变率(每秒) 第n次观测到衰变的时间 假设: 放射性的衰变以速率 随机发生。对于任何n, 目标: 根据有限的观测值, 求出 .,连续概率模型简介,步骤二是选择建模的方法。我们将使用连续的概率模型。 假设X是在实轴上取值的随机变量。描述X的概率结构的恰当方式是使用函数 称之X为的分布函数。,连续概率模型简介,我们称函数 为X的密度函数。对于任

13、何a和b,我们有 (7) 换句话说,密度曲线下面的面积就给出了概率。X的平均值或期望值定义为 (8),连续概率模型简介,如果把它写成黎曼和就可以看出,它是由离散的情形直接类推过来的。值得指出的是,这些表示法和术语是从物理学中的问题质心的问题中来的。如果一条金属线或硬杆放在x轴上, 表示在点 处的密度(克/厘米),则 的积分就表示质量, 的积分就表示质心。,连续概率模型简介,在应用中随机到达的特殊情形经常出现。假设一个到达的现象(例如,顾客的到达,电话的呼叫,放射性的衰变)以速率 随机出现,同时令X表示两次连续到达现象之间的随机时间。通常假设X有分布函数,(9),连续概率模型简介,则的密度函数是

14、 (10) 称这个分布为带有速率参数 的指数分布。 指数分布的“无记忆性”,即对于任何的t0和s0,我们有,连续概率模型简介,(11) 换句话说,对于下一次到达现象发生这件事情来说,我们已经等待的s单位的时间并不影响直到下一次到达现象发生的时间的(条件)分布。指数分布会忘记我们已经等待了多长时间 .,连续概率模型简介,方程(11)中的概率称为条件概率,按照定义,已知事件B发生时事件A发生的概率是 (12) 换句话说, 是事件B发生的所有可能的事件中事件A出现的相对可能性。,连续概率模型简介,第三步,模型组建。假设放射性衰变以一个未知的速率 随机的发生。现在如下的假设下组建模型,所有相继两次放射

15、性衰变之间的时间是独立的,而且都服从带有速率参数 的指数分布。令,连续概率模型简介,第四步,求解模型。因为 ,则 ,其中 分部积分求出 ,于是 。,连续概率模型简介,强大数定律告诉我们 以概率1成立。换句话说,有 当n很大时近似的有 (13),连续概率模型简介,关于 求解,可得 (14),连续概率模型简介,第五步,我们得到了一个衰变率的公式,它矫正了由于计数器的闭锁产生的衰变现象的丢失,全部所需要的资料是记录观测衰变时间和所记录的衰变的次数。在观测间隔内的那些衰变的分布对于确定 是不必要的。,连续概率模型简介,灵敏性分析应考虑闭锁的时间a,它是以经验确定的。确定a的精确度将影响到 的精确度。从

16、方程(14)我们算得 则对a的灵敏性是 这也是在计数器闭锁的时间内衰变次数的期望值。,连续概率模型简介,于是就可以得到一个对于不太强烈的放射 源 的 一个(相对来说)较好的估计值。达到这一点的一个简单的方式就是只取很少一点放射性材料作为样品。另一个潜在的误差的来源就是假设,连续概率模型简介,显然,这个式子不是绝对成立的。虽然 当 时,它是收敛的,随机的波动将使得经验性的速率在均值附近变化。这些随机波动的研究我们将在下节内容给以介绍。,连续概率模型简介,最后来讨论关于稳定性的问题。关于衰变过程我们做了一个看来很特殊的假设。我们假设衰变之间的时间是独立的,同时它服从一个特定的分布(带有速率参数的指

17、数分布)。称这样的一个到达的过程为泊松分布(Poisson process)。泊松分布过程通常被用于表示随机到达的现象。许多现实世界中的到达过程的间隔时间至少是近似的服从指数分布的事实部分地证明了这种使用方法是可以接受的。这个结论至少可以用收集到的关于到达时间的资料验证。但是这并没有回答我们的问题:为什么会出现指数分布?,连续概率模型简介,这里指出一个到达的过程是泊松分布的数学根据。考虑一个大量的到达过程,它们彼此之间是独立的。我们不做关于到达过程的到达时间间隔分布的假设;我们仅仅假设到达的时间间隔是独立且同分布的。有定理:在相当一般的条件下将所有这些独立的到达过程合并所得到的到达的过程一定是

18、泊松过程。(当合并的过程的个数趋于无穷大时,合并过程趋于泊松过程。)这就是为什么基于指数分布的泊松过程是一个稳健的模型。,统计简介,统计简介,在任何的建模问题中,人们总是希望得到模型性能的定量的度量。对于概率模型来说系统行为的这些参数的得到又增加了复杂性。我们必须要有办法处理表征概率模型特性的系统行为的随机波动。统计学就是关于随机波动度量的研究。适当的使用统计的方法必须是任何概率模型分析的一部分。,统计简介,例3.4 (美国)一个地区911应急服务中心在过去的一年内平均每月要收到171个房屋火灾的电话. 基于这个资料房屋的火灾率被估计为每月171次. 下一个月收到的火灾报警电话只有153个.

19、这表明房屋的火灾率实际上减少了,或者它只是一个随机波动?,统计简介,使用五步法:第一步的结果,假设报警电话有指数的间隔时间 . 变量: =报告的房屋火灾率(每月) =第n-1次和第n次火灾之间的时间(月)假设: 房屋火灾以速率 随机发生,即 ,是独立的且每个 有速率参数为的 指数分布.目的: 给定 ,确定每月收到153次这样少的电话报警的概率有多大,统计简介,步骤二:确定建模方法统计推断问题 假设 是独立的随机变量,全部有相同的分布. 若X是离散的,它的平均或期望值是 若是连续的,带有密度 ,则 .,统计简介,方差:度量偏离其平均数的范围. 一般定义为 (15) 若是离散的, (16) 若是连

20、续的,带有密度 ,则 (17),统计简介,中心极限定理: 当 时,和式 的分布越来越接近于正态分布. 特别地,若 , ,则对于所有的实数t,我们有 (18),统计简介,其中, 是标准正态分布函数,标准正态分布的密度函数定义为 (19)对于所有的t, (20),统计简介,统计简介,上给出了标准正态分布的图像. 数值积分表明,当 时的面积近似于0.68, 时的面积近似于0.95. 于是对于足够大的n,有 有68%的次数成立,同时, (21) 有95%的次数成立.,统计简介,换言之,我们有68%的把握断言 ,同时有95%的把握断言 (22),统计简介,步骤三:组建模型 假设报警电话之间的时间 是密度

21、函数为 的指数分布. 方差 即,统计简介,由中心极限定理可以得到 在它的平均数 附近变化范围的概率估计. 特别地,(22)式以概率95%成立. 步骤四:利用分步积分可计算得出,统计简介,把 代入(22)式,得 (23) 一定以概率95%成立. 将 代入(23),我们有95%的把握确信,统计简介,即 因此,观察值 是在正常的变化范围之内,统计简介,步骤五:断言火灾报警率降低的证据是不充分的. 所观测到的报警电话的数量也许是正态随机变量的正常的结果. 若每月报警电话的数量连续地这样低,则需重新评估这一情况.,统计简介,灵敏性分析:已经知道,每月153个报警电话的总数量在正常的变化范围之内. 更一般

22、地,在一个月内收到了n个报警电话. 将171代入(23),得到 (24) 以概率95%成立. 因为对于任何的 区间,统计简介,总会包含1,更一般地结论是,有95%的时间这个社区每月报警电话的次数在147到199之间. 假设每月报警电话的平均值是 . 将n=153代入(23),得到 (25) 以概率95%成立. 因为对于任的 ,区间,统计简介,总会包含1,因此对于任何社区,只要它的平均每月报警电话数在128到178次之间,一个月有153次报警就属于正常的变化范围. 稳健性问题:本问题中假设了报警电话之间的时间是指数分布,然而,中心极限定理只要当 有限时对于任何的分布都是正确的. 因此,结论对于指数分布的假设是不灵敏的,这里仅要求 和 比较不是特别的小.,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 经营企划

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报