1、第二讲:主观概率,主要内容: 1. 概率的基本概念 2. 先验分布及其设定 3. 设定主观概率案例,1. 概率的基本概念,1)概率,(1) 频率与概率为了描述随机事件发生的可能性大小,人们通常进行随机试验并观察试验结果。在相同条件下进行了n次试验,其中事件A发生的次数nA称为事件A发生的频数,比值 称为事件A发生的频率,记作 。,即古典的概率(probability)的定义如下:,(2) Laplace的概率定义Laplace(1812)把事件A发生的概率定义为:其中,k为事件A中所包含的基本事件数量,n为基本事件的总数。,显然,上述定义的适用条件是: 基本事件的数量有限,即试验的样本空间 ;
2、 每个基本事件都是等可能的,即,(3)概率的公理化定义Kormogorov在1930年的著作中给出的概率的公理化定义。,定义2.1 E是随机试验,S是E的样本空间,对E的每一事件A,对应有确定的实数p(A),若p(A)满足: 非负性:0 p(A)1; 规范性: p(S)=1;, 可列可加性:对两两不相容事件 (两两不相容是指 ),有 则称为事件A发生的概率。,以上所述的几种概率的定义中有一个共同的特点,这就是概率是在多次重复试验中,随机事件A发生的可能性的大小的度量。而在实际的决策问题中,自然状态的概率往往无法通过重复试验求得,通常也并不包含等可能的基本事件。,例如,在出门是否带伞的决策问题中
3、可能会遇到明天是否下雨,项目申请问题中的中标可能性,以及在实际决策中经常遇到的明年国民经济增长率的分布、战争中对敌方下一步行动的估计等等这样广义的自然状态,这些状态或事件显然是无法重复试验的,其中也没有所谓的基本事件。,有些问题虽然不是完全不能重复试验,但由于种种原因,实际上不能施行。例如洲际导弹的命中率,虽然在原则上可以通过相同条件下的重复试验获得,但是每次试验费用过于昂贵、代价过大,实际上不可能多次重复试验。,在以上各种情况下,前面提到的三种概率的定义均不适用。,由于上述原因,需要有一种能在频率观点不适用、实际上无法进行随机试验时设定概率的方法,这就是主观概率(subjective pro
4、bability);与此同时,把上面三种定义所规定的概率称为客观概率(objective probability)。,2)主观概率,根据Savage(1954)的观点,主观概率是一种见解,是合理的信念的测度。它是某人对特定事件会发生的可能性的信念(或意见、看法)的度量,即他相信或认为事件将会发生的可能性的大小。,这种相信的程度是一种信念,是主观的,但又是根据经验、各方面的知识以及对客观情况的了解,利用相关信息进行分析、推理、综合判断而设定(Assignment)的,与主观臆测不同。,例如,一个即将毕业的硕士生考虑下一步去向的时候,面临着就业还是继续深造(考博士生)的选择。而是否考博士生在很大程
5、度上取决于被录取的可能性大小。这种考博被录取概率的设定显然是主观的,但也不是随意的、毫无根据的,获得的相关信息越多、越准确,设定概率也越可信。,又比如掷硬币,稍有常识的人都知道,只要硬币是均匀的,无需多次重复试验,也能判断正面朝上的概率是二分之一。又如,抛一枚图钉,它落地并最终静止时可能针尖朝上,也可能针尖朝下。,要求一群学生估计针尖朝上的概率,虽然这些学生事先都没有抛过图钉,但是大部分学生都认为针尖朝上的概率大于二分之一,众数在0.550.7之间。许多人是凭直觉判断的。试验(抛掷1000次以上)的结果是针尖朝上的概率略大于0.6,也就是说,即使凭直觉也可以作出相当不错的概率估计。,3)概率的
6、数学定义,定义2.2 对非空集=,F是的子集A所构成的-域,即F满足如下条件: F; 若 则 ; 若 则 。,若 是定在F上的实值集函数,它满足: 非负性 ; 规范性 ; 可列可加性 ,若 为两两不相容事件,则则 称为事件A的(主观或客观)概率测度,简称概率。,上述定义中,为基本事件,A为事件,三元总体(,F,P)则称为概率空间。,需要注意的是,定义2.2既适用于客观概率,也完全可用于主观概率,即两者有着完全相同的数学定义。因此,由客观概率论者发展起来的概率论的整套推理和计算方法,也都完全适用于主观概率。,4)主客观概率的比较,(1) 基本属性客观概率论者(以下简记为O)认为:概率是系统的固有
7、的客观性质,是在相同条件下重复试验时频率的极限。主观概率论者(以下简记为S)认为:概率是观察者而非系统的性质,是观察者对系统处于某状态的信任程度。,(2) 抛硬币:正面向上概率为1/2。O:只要硬币均匀,抛法类似,次数足够多,正面向上的概率就会是1/2,这是简单的定义。S:这确是定义,决策人认为硬币是均匀的,正、反面出现的可能性(似然率)相同,是个主观的量。,(3)下次抛硬币出现正面的概率是1/2。O:这种说法不对,不重复试验就谈不上概率。S:对决策人来说,下次出现正、反是等可能的。但这不是说硬币本身是公正的,它可能会有偏差,只是就他现有知识而言,没有理由预言一面出现的可能会大于另一面,但多次
8、抛掷的观察结果可以改变他的信念。,O、S:下次抛硬币出现正面还是反面不能确定,但知道:要么是正面,要么是反面。由于历史原因,客观概率论者习惯使用概率(probability)一词,采用记号表示自然状态的概率;而主观概率论者习惯用似然率(likelihood),采用记号表示自然状态的的似然率。,2. 先验分布及其设定,在决策分析中,尚未通过试验收集自然状态信息时所具有的信息叫先验信息,由先验信息所确定的概率分布叫先验分布(Prior distribution)。设定先验分布是贝叶斯分析(Bayesean analysis)的需要。,1)设定先验分布时的几点假设,对许多领域的实际问题,设定在相关的
9、域上的事件的概率分布对于这些领域的专业人员来说已经是常规性和标准化的工作。这种赋值通常是模型与经验相结合,而且许多典型的问题有其相应的概率模型,如二项分布、正态分布、泊松分布等可以使用。,在概率论教材中, 对于一定类型问题应该采用哪种特定的概率分布,有着广泛的一致意见,因此有许多问题可以迅速而客观地赋以适当概率。而对那些不具备典型特征的事件,要让两个人就同一个特定的概率分布的适用性取得一致意见通常都十分困难,这时概率的设定就有高度的主观性。,由于在实际的决策问题中所遇到的概率的设定大部分属于后者,这里主要讨论在这种情况下如何设定概率(即似然率),并在设定似然率时充分反映决策人拥有的信息和信念。
10、,为了讨论方便,我们先引入几个记号: 、 和 。读作 “事件A发生的似然率大于事件B发生的似然率”;读作 “事件A发生的似然率与事件B发生的似然率相当”;读作 “事件A发生的似然率不小于事件B发生的似然率”。,假设2.1(连通性(connectivity)假设,又称可比性(comparability)假设)是指事件A和B发生的似然率是可以比较的,即 或 或 必有一种也仅有一种成立。,假设2.2(传递性 (Transitivity)假设)若对事件A、B和C, , ,则,假设2.3(部分小于全体)若事件A是事件B的一部分,即B包含A,记作 ,则事件B发生的可能性不会小于事件A,即,假设2.4 若
11、是离散的事件序列,B是某个固定事件,且对任意i有 ,则假设2.5 在0,1区间存在均匀分布的随机变量。,Savage(1954)指出满足:假设2.12.5就可以保证概率分布的惟一存在性。在实际设定先验分布的时候,注意满足前三条假设就可以了,分析人员的注意力应该放在量化决策人的“信念”的准确性上。,2)离散型随机变量先验分布的设定,(1)对各事件加以比较确定相对似然率。示例1 某人考博士生被录取的概率。示例2 某个农民为了确定当年种植作物的适宜品种,需要判断当年的气候状况。,(2)打赌法设事件E发生时收入 ,其中的1代表某个适当的数值的钱,例如1000元或100元,不同的决策人可以取不同的值,这
12、一数值与决策人的财产相比是一个小数目,以保证在此范围内对决策人的实际价值接近于线性;,设E不发生即 发生时收入为 。调整p值,使决策人感到两者无差异为止,则,为了帮助决策人量化随机事件的主观概率,可以借助于概率盘,其形状如下图。,主观概率待定的抽奖,概率盘正面,概率盘正面分为红、兰两个扇形区,扇形区的面积可任意调整;反面有刻度指示红色扇形区占整个圆盘面积的百分比。使用时调整红色扇形区域的大小,直到决策人认为它与右图抽奖中后果E发生的概率相等为止,这时概率盘反面的刻度值就是决策人心目中后果E发生的概率。,2)连续型随机变量先验分布的设定,(1)直方图法。这种方法适用于自然状态的 取值是实轴的某个
13、区间的情况。具体步骤是: 将区间离散化 即把 的取值范围划分为若干个子区间 ;, 赋值:设定每个子区间的似然率并根据 作出直方图; 变换:把直方图变换成概率密度函数曲线。,示例3 明年国民经济的增长率的设定。,直方图法的主要缺点是: 子区间的划分没有标准,可以只分成两三个子区间,也可以分成十多个子区间;子区间划分的数量不同,最后拟合所得到的概率密度函数曲线往往会有比较大的差异;, 确定每个子区间的似然率很不容易,在子区间数量较多时尤其困难; 拟合所得的概率密度函数通常尾部误差很大。,(2)相对似然率法该方法是为了克服直方图法的缺点之而提出的,它的适用范围与直方图法相同。具体步骤为:, 离散化
14、与直方图法的第一步相同,将随机变量的取值范围划分为若干个子区间,但是由于其赋值比直方图法容易,子区间可以多些; 赋值 为各子区间赋值的方法有两种:,a)选定一个似然率最大的子区间 作为基准,设基准区间的相对似然率为 (或者取1、100等,视决策人的习惯而定),然后给出其他各区间似然率与基准区间似然率的相对比值 ,即,b)由决策者给出每二个子区间似然率的比例关系:, 规范化对赋值法a) :(2.4),对赋值法b) 将 记作 ,则若决策人所给出的 准确无误,则应有(2.5)(2.6),在上述条件满足时,令 则(2.7),如果决策人所给出 的有误差,式(2.6)不成立,可用最小二乘法估计决策人心目中
15、真正的主观概率分布 。为此需要求下面的规划问题的解。,(2.8),示例4 明年国民经济的增长率的设定。,(3) 区间对分法区间对分法的适用范围比前面介绍的两种方法要广,它可以用于随机变量的取值范围是开区间的情况。具体步骤是: 求中位数 确定上、下四分位点(quartile fractile) 由于误差积累,最多确定八分位点(Eighth fractile),这种方法的优点是简单易行,对决策人的要求不高;主要缺点是精度差。,(4)与给定形式的分布函数相匹配选择一个与先验信息匹配得最好的分布函数,如均匀分布、二项分布、正态分布、泊松分布、 -分布、指数分布、柯西分布等等。常用的分布函数选择方法有:
16、, 在单位时间以恒常的平均比率出现,则在时间长度单位内该事件出现的次数服从Poisson分布; 若影响某一随机变量的因素很多且每一因素的作用均不显著,则该变量服从正态分布。例如,测量误差,弹着点,人的生理特征的度量,农作物产量等均服从正态分布;, 每次随机试验中事件A出现的概率为p,n次独立试验中事件出现r次的概率服从二项分布,即 ; 如果随机变量落在在某个区间中任意等长度的子区间内的可能性相同,则它服从均匀分布;,在根据随机变量的特征选定适当的分布函数后,重要的工作是估计参数。例如对正态分布,只要估计先验均值(一阶矩)和先验方差(二阶矩)。但是估计这些参数是一项不确定性很大的任务,关键在于概
17、率密度函数的尾部估计不易准确,而尾部的很小的误差会对矩产生很大影响。其他典型的分布函数也有类似的问题,在处理无界的或很大的参数区间时,这一问题尤其严重。,对概率密度函数的尾部即小概率事件的似然率的估计,一般不宜让决策人直接赋值,而是要采用适当的措施。比如,选择某个概率已知的小概率事件作为基准。抛掷硬币连续10次出现正面的概率约为千分之一,以此作为基准,让决策人比较待设定的事件的似然率与这一基准事件的概率,再根据决策人的判断计算出待设定的事件的似然率。,用这种方法所得的结果比直接赋值要准确得多。有时小概率事件是在其他一系列事件发生的条件下才会发生,如果这一系列中间事件并不是小概率事件,则可以由决
18、策人估计这一系列中间事件发生的似然率,再通过计算获得小概率事件发生的似然率。,确定先验概率密度函数的参数的比较好的方法是分位点法,由决策人主观地估计先验分布的几个分位点,再选择适当的分布函数形式使所得到的概率密度函数与这些分位点尽可能匹配。由于只要主观地估计若干个不同区间的概率,并有许多现成的概率密度函数分位数表可供利用,因此这种方法比矩法容易使用。,需要注意的是,自然状态的概率或概率分布不是也不应当由决策分析人员来设定,而应当由决策人和有关问题专家提供基本信息,由决策分析人员协助设定。,示例3,假设决策人精通统计学的有关知识,并且确认明年国民经济的增长率介于112之间,则不妨把子区间划小些,
19、以1为单位。由决策人给出处于每一百分值的似然率,并作直方图如下图所示。图中用 表示上限 为的子区间,例如5%表示子区间4%5%。,国民经济的增长率的概率分布直方图,利用上图,就可以拟合出相应的概率密度函数曲线。,3. 设定主观概率案例,地区教育需求的确定,某地区教委制订1985年到2000年的地区教育发展规划,具体负责规划制订的教委领导人就是这个决策问题的决策人。为了订好规划,他请决策分析人员协助工作。规划中的很重要的一环是要确定中小学教育的总规模,而要能够确定规模,先要知道规划期内社会对教育的需求,即该地区学龄儿童人数。,如果只是近期规划,学龄儿童可从有关部门的统计资料中获得。对于长期规划,就需要从该地区今后若干年的出生率推算。因此,决策分析人请决策人或有关人口问题的专家提供相关信息。对此,决策人请来三位人口问题专家(包括计划生育部门的专家),以提供今后几年出生率的概率分布的信息。,决策分析人与三位专家分别交谈,得出了今后几年的出生率的概率分布,如下图。,三位专家给出的概率分布曲线,继续!,休息一会!,