1、2018年3月13日9时18分,1,风险管理讲义,2018年3月13日9时18分,2,第八章 损失分布,引言第一节 概率论与数理统计基本概念第二节 常用损失分布及性质第三节 获得损失分布的一般过程,2018年3月13日9时18分,3,第八章 损失分布,1、损失分布建立在概率论与数理统计基础上2、常用描述风险损失分布: 二项分布;几何分布;泊松分布;负二项分布;正态分布3、获得损失分布方法:经典统计法、贝叶斯方法、随机模拟法,2018年3月13日9时18分,4,引言,风险管理措施依赖于事先对风险做出定量预测,预测的结果就是损失分布。风险是未来的不确定性,无法用一个数值描述,只能用汇总所有结构及其
2、发生概率的概率分布来描述。概率论与数理统计是基础与关键。,2018年3月13日9时18分,5,第一节 概率论与数理统计的基本概念,一、概率论基本概念1、随机事件与样本空间定义:广义从某一研究目的出发,对随机现象进行观察或测量的过程均可称为随机试验。一个过程的结果的某种集合称为一个事件,无法再分解为更简单成分的结果或事件称为基本事件。随机试验的结果也称随机事件。 随机试验的所有基本事件的集合称为此试验的样本空间,其中每一个结果称为样本点。,2018年3月13日9时18分,6,第一节 概率论与数理统计的基本概念,一、概率论基本概念2、概率的定义一般地,概率用P表示,事件用A,B或C表示,P(A)就
3、表示事件A发生的概率。定义:古典概率(结果发生必须是等可能的):假设一个试验包括n种不同的基本事件,这些基本事件发生的可能性都是相同的。如果在这n个结果种,有m种属于事件A,那么P(A)=m/n,2018年3月13日9时18分,7,第一节 概率论与数理统计的基本概念,一、概率论基本概念定义:概率的统计定义:将一个试验在相同条件下重复n次,假设事件A出现了m次。当试验的重复次数足够多时,事件A发生的概率可以用事件A发生的频率来近似,即 P(A)=m/n,2018年3月13日9时18分,8,第一节 概率论与数理统计的基本概念,一、概率论基本概念定义:主观概率:事件A的概率P(A)是基于相关环境知识
4、,通过对它的值进行猜想或估计计算出的。我们主观估计的概率与实际概率存在很大不同。见案例!,2018年3月13日9时18分,9,第一节 概率论与数理统计的基本概念,如果你做一个深呼吸,你有超过99%机会吸入凯撒垂死时呼出的最后一口气的分子。如果苏格拉底致命的铁杯里装满了很多水,那么你喝下一杯水中就有可能含有一个同样的水分子。在一个班里25名同学中,有超过50%可能性,至少有2个学生的生日是在同一天。,2018年3月13日9时18分,10,第一节 概率论与数理统计的基本概念,2018年3月13日9时18分,11,苏格拉底小故事,苏格拉底虽是古希腊一位伟大的哲学家和教育家,但他自己一篇著作也没有留下
5、,我们只能从他的学生如柏拉图、色诺芬等人的著作中了解他的言行和思想。这一点颇像我国古代伟大的哲学家、教育家孔子。孔子一生也是“述而不作”,没有留下任何著作。 论语这部著作要是他的弟子和他的再传弟子们将他一生的言行整理、汇集成。,2018年3月13日9时18分,12,第一节 概率论与数理统计的基本概念,一、概率论基本概念3、概率的运算规则(1)加法:P(A+B)=P(A)+P(B)-P(AB)如果A和B是互斥的,那么 P(A+B)=P(A)+P(B)(2)乘法: P(AB)=P(A)P(BA)条件概率P(BA)= P(AB)/ P(A)如果A和B是独立的,那么 P(AB)=P(A)P(B),20
6、18年3月13日9时18分,13,例2. 甲、乙两人先后从52张牌中各抽取13张,求甲或乙拿到4张A的概率. 1) 甲抽后不放回,乙再抽; 2) 甲抽后将牌放回,乙再抽.,1)A、B互斥,P(A+B)=P(A)+P(B),解:设A=甲拿到4张A, B=乙拿到4张A,所求为P(A+B),计算P(A)和P(B)时用古典概型,2018年3月13日9时18分,14,2) A、B相容,P(A+B)=P(A)+P(B)-P(AB),解:设A=甲拿到4张A, B=乙拿到4张A,所求为P(A+B),2018年3月13日9时18分,15,P(A )=1/6,,例如,掷一颗均匀骰子,A=掷出2点,,B=掷出偶数点
7、,,P(A|B)=?,已知事件B发生,此时试验所有可能结果构成的集合就是B,,于是P(A|B)= 1/3.,B中共有3个元素,它们的出现是等可能的,其中只有1个在集A中,,容易看到,P(A|B),2018年3月13日9时18分,16,注意P(AB)与P(A | B)的区别!,请看下面的例子,2018年3月13日9时18分,17,例2 甲、乙两厂共同生产1000个零件,其中300件是乙厂生产的. 而在这300个零件中,有189个是标准件,现从这1000个零件中任取一个,问这个零件是乙厂生产的标准件的概率是多少?,所求为P(AB).,甲、乙共生产1000 个,189个是标准件,300个乙厂生产,设
8、B=零件是乙厂生产,A=是标准件,2018年3月13日9时18分,18,所求为P(AB) .,设B=零件是乙厂生产,A=是标准件,若改为“发现它是乙厂生产的,问它是标准件的概率是多少?”,求的是 P(A|B) .,B发生,在P(AB)中作为结果;在P(A|B)中作为条件.,2018年3月13日9时18分,19,第一节 概率论与数理统计的基本概念,一、概率论基本概念3、概率的运算规则(3)全概率公式与贝叶斯公式全概率公式用于某一事件的概率的计算。如果事件组满足: A1 ,A2, An两两互斥,且P(Ai)0(i=1,n); A1 +A2+ +An=U(U为整个样本空间),则对任何一事件B皆有,2
9、018年3月13日9时18分,20,第一节 概率论与数理统计的基本概念,一、概率论基本概念贝叶斯:当我们对一个事件知道更多时,概率应该被修正。 表示A的补,,2018年3月13日9时18分,21,第一节 概率论与数理统计的基本概念,一、概率论基本概念4、随机变量与概率分布定义:一个随机变量是指这样一个便利,对于过程中的每个结果,都有一个由可能性决定的唯一的数值与之对应。如果变量的数值有限或可数,则称这个随机变量为一个离散随机变量。如果一个随机变量有无限多取值,这些数值能够和一种没有间断的连续刻度的度量联系起来,则称这种随机变量为连续随机变量。一个概率分布(probability distrib
10、ution)表示随机变量每个值的概率图、表或公式。,2018年3月13日9时18分,22,第一节 概率论与数理统计的基本概念,一、概率论基本概念5、随机变量的数字特征期望值(expected value):如果随机试验无限重复下去,我们所期望得到的平均值。方差(variance):表示随机变量取值与其期望值偏离程度。定义:离散随机变量X的期望值其中 是随机变量X的第i个取值,,2018年3月13日9时18分,23,第一节 概率论与数理统计的基本概念,一、概率论基本概念连续随机变量X的期望值 为随机变量X的取值, 为随机变量X的概率密度函数。连续随机变量用函数形式表示概率分布称为概率密度函数离散
11、随机变量X的方差 随机变量X的期望值。,2018年3月13日9时18分,24,第一节 概率论与数理统计的基本概念,一、概率论基本概念连续随机变量X的期望值,2018年3月13日9时18分,25,第一节 概率论与数理统计的基本概念,二、数理统计基本概念1、统计推断:从一般到具体方法称为演绎法,是概率论的研究方法。从具体到一般方法称为归纳法,是数理统计研究方法。 抽取样本观察,整理分析判断,得出一般结论 -统计推断 数理统计作用提供归纳推断方法,并对推断结论可信度做出计量,2018年3月13日9时18分,26,第一节 概率论与数理统计的基本概念,二、数理统计基本概念2、总体、样本与分布定义:按照统
12、计研究目的而确定的同类事物或出现现象的全体称为总体,它是个体或特体性质的集合。样本(sample)指从总体中抽取若干个元素而构成的集体。数理统计中,一般采用概率抽样,即每个单位都有指定概率被选中,便于基于概率论推断总体。,2018年3月13日9时18分,27,第一节 概率论与数理统计的基本概念,二、数理统计基本概念总体的数值分布的规律称为总体分布,其中的特征数称为参数。从总体中抽取容量为n的样本,样本观察值的分布称为经验分布。使用样本数据来估计总体参数的公式或过程称为估计量。用来近似总体参数的特征数值或数值的范围称为估计值。样本数据平均值称为样本均值,样本数据的方差和标准差分别称为样本方差和样
13、本均方差。,2018年3月13日9时18分,28,第一节 概率论与数理统计的基本概念,二、数理统计基本概念3、偏态定义:将数据按照大小依次排列,处于中间位置的数值称为中位数,出现最多的那个数值称为众数。如果数据的均值、中位数和众数三者是相同的,则这个分布是对称分布,没有偏态。如果一个分布的众数小于中位数,则称其为正偏或右偏,反之称为负偏或左偏。,2018年3月13日9时18分,29,第一节 概率论与数理统计的基本概念,正偏,负偏,2018年3月13日9时18分,30,第一节 概率论与数理统计的基本概念,二、数理统计基本概念4、相关定义:当两个变量中的一个以某种方式和另一个有关时,就称这两个变量
14、之间是相关的。相关性可以相关系数(correlation coefficient)来度量。线性相关系数r(皮尔森积距相关系数)度量的是一个样本中成对的x值和y值之间线性关系的程度,,2018年3月13日9时18分,31,第一节 概率论与数理统计的基本概念,二、数理统计基本概念其中, 即随机变量X和Y的标准差,称为X和Y的协方差,,2018年3月13日9时18分,32,第一节 概率论与数理统计的基本概念,二、数理统计基本概念计算相关系数结论: 1、正相关是两个随机变量倾向于以相同方向变化,负相关指的是二者倾向于相反方向变化。 2、相关性不代表因果性!(当相关系数大时,不能简单认为x的变化引起y的
15、变化,而唯一有效结论是:x和y之间也许存在某种线性趋势,可能是与二者有因果关系的第三个变量在起作用。,2018年3月13日9时18分,33,第二节 常用的损失分布及性质,1、二项分布(常用离散型概率分布)其模型: 假设在n次独立的重复试验中,每次试验只可能有两种结果(1或0),设在每一次试验中1出现的概率都是p,2018年3月13日9时18分,34,第二节 常用的损失分布及性质,则随机变量X的概率分布:二项分布的均值和方差:,2018年3月13日9时18分,35,例3 已知100个产品中有5个次品,现从中有放回地取3次,每次任取1个,求在所取的3个中恰有2个次品的概率.,解: 因为这是有放回地
16、取3次,因此这3 次试验的条件完全相同且独立,它是贝努里试验.,依题意,每次试验取到次品的概率为0.05.,设X为所取的3个中的次品数,,于是,所求概率为:,2018年3月13日9时18分,36,例4 某类灯泡使用时数在1000小时以上的概率是0.2,求三个灯泡在使用1000小时以后最多只有一个坏了的概率.,解: 设X为三个灯泡在使用1000小时已坏的灯泡数 .,X B (3, 0.8),,把观察一个灯泡的使用时数看作一次试验,“使用到1000小时已坏”视为“成功”.每次试验,“成功”的概率为0.8,P(X 1) =P(X=0)+P(X=1),=(0.2)3+3(0.8)(0.2)2,=0.1
17、04,2018年3月13日9时18分,37,第二节 常用的损失分布及性质,2、几何分布其模型:考虑只有两个结果的独立重复随机变量试验序列,指定结果发生的概率为p,则首次出现指定结果所需的试验次数X的概率分布:,2018年3月13日9时18分,38,第二节 常用的损失分布及性质,几何分布的均值和方差:,2018年3月13日9时18分,39,第二节 常用的损失分布及性质,3、泊松分布(近似二项)其模型:法国数学家泊松二项近似引入。只有两个结果的n次独立重复随机试验,当n很大,且指定结果发生概率p很小,且np适中,泊松是很好近似。一般应用:1、泊松在描述稀有事件出现概率特别有用。2、描述单位时间内或
18、指定范围内特定事件出现次数的统计规律,2018年3月13日9时18分,40,第二节 常用的损失分布及性质,3、泊松分布: 如果随机变量X取值为0,1,2,则概率分布,记为泊松分布的均值和方差:,2018年3月13日9时18分,41,第二节 常用的损失分布及性质,3、泊松分布: 例:有一繁忙的汽车站, 每天有大量汽车通过,设每辆汽车,在一天的某段时间内出事故的概率为0.0001,在每天的该段时间内有1000 辆汽车通过,问出事故的次数不小于2的概率是多少? 解:设1000 辆车通过,出事故的次数为 X , 则Xb(1000,0.0001), 可利用泊松定理计算,=10000.0001=0.1 P
19、X21-e(-0.1)0!-0.1e(-0.1)1!=0.0047,2018年3月13日9时18分,42,第二节 常用的损失分布及性质,4、负二项分布:其模型:进一步研究只有两个结果的独立重复随机试验序列,指定结果发生的概率为p,则指定结果第k次恰好出现在第x+k次试验的概率为:记为NB(k,p)负二项分布的均值和方差:,2018年3月13日9时18分,43,第二节 常用的损失分布及性质,5、正态分布(高斯分布)是常用连续型分布,风险事故造成的损失金额较好服从正态分布:若 为两个实数,则由下列密度函数确定随机变量X的分布称为正态分布:记为,2018年3月13日9时18分,44,第二节 常用的损
20、失分布及性质,5、正态分布的均值和方差:当 称为标准正态分布,相应密度函数和分布函数专门记为:,2018年3月13日9时18分,45,频率分布直方图,数 学 情 景,2018年3月13日9时18分,46,第一步:分组,确定组数,组距?,2018年3月13日9时18分,47,第二步:列出频率分布表,2018年3月13日9时18分,48,中间高,两头低,左右大致对称,第三步:作出频率分布直方图,2018年3月13日9时18分,49,若数据无限增多且组距无限缩小,那么频率分布直方图的顶边缩小乃至形成一条光滑的曲线,我们称此曲线为概率密度曲线,概率密度曲线的形状特征,“中间高,两头低,左右对称”,知识
21、点一:正态密度曲线,2018年3月13日9时18分,50,上图中概率密度曲线具有“中间高,两头低”的特征,像这种类型的概率密度曲线,叫做“正态密度曲线”,它的函数表达式是,知识点二:正态分布与密度曲线,2018年3月13日9时18分,51,正态密度曲线,2018年3月13日9时18分,52,(1)曲线在x轴上方,与x轴不相交.(2)曲线关于直线x=对称.(3)在x=时位于最高点.(4)当x时,曲线下降.并且当曲线向左、右两边无限延伸时,以x轴为渐近线,向它无限靠近。,正态曲线的性质,2018年3月13日9时18分,53,(5)当一定时, 曲线的形状由确定。越大,曲线越“扁平”,表示总体的分布越
22、分散;越小,曲线越“尖陡”,表示总体的分布越集中,正态曲线的性质,2018年3月13日9时18分,54,当0,1时,正态总体称为标准正态总体,其相应的函数表达式是 其相应的曲线称为标准正态曲线。标准正态总体N(0,1)在正态总体的研究中占有重要地位。任何正态分布的问题均可转化成标准总体分布的概率问题。,知识点六:标准正态曲线,2018年3月13日9时18分,55,(1)在生产中,各种产品的质量指标一般都服从正态分布;(2)在测量中,测量结果、测量的随机误差都服从正态分布;(3)在生物学中,同一群体的某种特征都服从正态分布;(4)在气象中,某地每年七月份的平均气温、平均湿度、降雨量等都服从正态分
23、布。,知识点四:正态分布的意义,2018年3月13日9时18分,56,标准正态总体N(0,1)的概率问题:,就是图中阴影区域A的面积,由于标准正态总体 在正态总体的研究中有非常重要的地位,已专门制作了“标准正态分布表” 见p110。,A,该区域的面积表示?又该如何计算呢,2018年3月13日9时18分,57,2018年3月13日9时18分,58,2018年3月13日9时18分,59,2018年3月13日9时18分,60,2018年3月13日9时18分,61,2018年3月13日9时18分,62,参数估计补充内容,2-1,参数的点估计,参数的区间估计,点估计的评判标准,2018年3月13日9时1
24、8分,63,什么是参数估计?,参数是刻画总体某方面概率特性的数量.,当此数量未知时,从总体抽出一个子样,用某种方法对这个未知参数进行估计就是参数估计.,例如,X N ( , 2),若, 2未知, 通过构造样本的函数, 给出它们的估计值或取值范围就是参数估计的内容.,2018年3月13日9时18分,64,参数估计的类型,点估计 估计未知参数的值,区间估计 估计未知参数的取值范围, 并使此范围包含未知参数 真值的概率为给定的值.,2018年3月13日9时18分,65,2.1 点估计方法,常用的点估计方法介绍,频率替换法,利用事件A 在 n 次试验中发生的频率,作为事件A 发生的概率 p 的估计量,
25、2018年3月13日9时18分,66,解 由,查表得,于是 的估计值为,2018年3月13日9时18分,67,方法,用子样 k 阶原点矩作为总体 k 阶原 点矩的估计量, 建立含有待估参数 的方程, 从而解出待估参数,一般, 不论总体服从什么分布, 总体期望 与方差 2 存在, 则它们的矩估计量分别为,矩法,2018年3月13日9时18分,68,事实上,按矩法原理,令,2018年3月13日9时18分,69,例2 设从某灯泡厂某天生产的灯泡中随机抽取10只灯泡,测得其寿命为(单位:小时) 1050, 1100, 1080, 1120, 1200 1250, 1040, 1130, 1300, 1
26、200试用矩法估计该天生产的灯泡的平均寿命及寿命分布的方差.,解,2018年3月13日9时18分,70,例3 设总体 X E(), X1, X2, Xn为总体的 样本, 求 的矩法估计量.,解,令,故,例4 设总体 X U (a, b), a, b 未知, 求参数 a, b 的 矩法估计量.,解,由于,2018年3月13日9时18分,71,令,解得,2018年3月13日9时18分,72,例5 设总体 X ,解, 其密度函数为,求 和 的矩估计量.,令,2018年3月13日9时18分,73,令,解得,2018年3月13日9时18分,74,一般, 设待估计的参数为,总体的 r 阶矩记为,子样 X1
27、, X2, Xn 的 r 阶矩为,令,解上述方程组 , 得 k 个统计量:,未知参数 1, ,k 的矩估计量,2018年3月13日9时18分,75,最大似然估计法,思想方法:一次试验就出现的 事件有较大的概率,例如: 有两外形相同的箱子,各装100个球 一箱 99个白球 1 个红球 一箱 1 个白球 99个红球,现从两箱中任取一箱, 并从箱中任取一球,结果所取得的球是白球.,答: 第一箱.,问: 所取的球来自哪一箱?,2018年3月13日9时18分,76,例6 设总体 X 服从0-1分布,且P (X = 1) = p, 用最大似然法求 p 的估计值.,解,总体 X 的概率分布为,设 x1, x
28、2, xn为总体样本X1, X2, Xn的样本值,则,2018年3月13日9时18分,77,对于不同的 p , L (p)不同, 见右下图,现经过一次试验,,发生了,,事件,2018年3月13日9时18分,78,在容许范围内选择 p ,使L(p)最大,注意到,ln L(p)是 L 的单调增函数,故若某个p 使ln L(p)最大, 则这个p 必使L(p)最大。,所以,为所求 p 的估计值.,2018年3月13日9时18分,79,一般, 设 X 为离散型随机变量, 其分布律为,则样本 X1, X2, Xn的概率分布为,或,称 L( ) 为样本的似然函数,2018年3月13日9时18分,80,称这样
29、得到的,为参数 的极大似然估计值,称统计量,为参数 的极大似然估计量,最大似然法的思想,2018年3月13日9时18分,81,若 X 连续, 取 f (xi, )为Xi 的密度函数,似然函数为,注1,注2,未知参数可以不止一个, 如1, k,设X 的密度(或分布)为,则定义似然函数为,2018年3月13日9时18分,82,若,关于1, , k可微,则称,为似然方程组,若对于某组给定的样本值 x1, x2, xn,参数 使似然函数取得最大值, 即,则称,为1, k 的极大似然估计值,2018年3月13日9时18分,83,例7 设总体 X N (, 2), x1, x2, xn 是 X 的样本值,
30、 求 , 2 的极大似然估计.,解,2018年3月13日9时18分,84, 2 的最大似然估计量分别为,似然方程组为,2018年3月13日9时18分,85,最大似然估计步骤,1) 写出似然函数 L,2)求出, 使得,可得未知参数的最大似然估计值,若 L可微, 解似然方程组,若 L不可微, 需用其它方法求最大似然估计值. 请看下例:,2018年3月13日9时18分,86,例8 设 X U (a,b), x1, x2, xn 是 X 的一个样本值, 求 a , b 的极大似然估计值与极大似然估计量.,解,X 的密度函数为,似然函数为,2018年3月13日9时18分,87,似然函数只有当 a xi
31、b, i = 1,2, n 时才能获得最大值, 且 a 越大, b 越小, L 越大.,令,xmin = min x1, x2, xnxmax = max x1, x2, xn,取,则对满足,的一切 a b ,都有,2018年3月13日9时18分,88,故,是 a , b 的极大似然估计值.,分别是 a , b 的极大似然估计量.,问 题,1) 待估参数的极大似然估计是否一定存在?,2) 若存在, 是否惟一?,2018年3月13日9时18分,89,设 X U ( a , a + ), x1, x2, xn 是 X的一个样本, 求 a 的极大似然估计值.,解,由上例可知, 当,时, L 取最大值
32、 1, 即,显然, a 的极大似然估计值可能不存在, 也可能不惟一.,例9,2018年3月13日9时18分,90,不仅如此, 任何一个统计量,若满足,都可以作为 a 的估计量.,2018年3月13日9时18分,91,极大似然估计的不变性,设 是 的极大似然估计值, u( ),( )是 的函数, 且有单值反函数, = (u), uU 则 是 u( ) 的极大似然估计值.,2018年3月13日9时18分,92,如 在正态总体N (, 2)中, 2的极大 似然估计值为,是 2的单值函数, 且具有单值,反函数,故 的极大似然估计值为,lg 的极大似然估计值为,2018年3月13日9时18分,93,特殊
33、方法,(对正态总体参数的特殊估计),用子样中位数作为总体期望的估计,用子样极差的函数作为总体均方差的估计,值查表2-1(P.41),2018年3月13日9时18分,94,设,若,是,的中位数, 则对任意,有,近似,即当 较大时,,近似,所以,,当 较大时可取,2018年3月13日9时18分,95,设总体,为子样极差,则,由上可见:,估计,产生平均平方,误差为,用,标准差为,其,系数,可查表 2-1(P.41),2018年3月13日9时18分,96,当,时, 将子样数据等分成若干组, 每,组数据不超过10个, 取各组极差的平均,然后用,估计,查 时,,取每一组中数据的个数.,2018年3月13日
34、9时18分,97,例10 设一批机器零件毛坯的重量服从正态分布,随机抽取10件,得子样(单位kg): 210, 243, 185, 240, 215, 228, 196, 235, 200, 199,解,将子样由小到大重排,用不同方法估计总体的参数值.,2018年3月13日9时18分,98,其中,误差,误差,查表 2-1,2018年3月13日9时18分,99,某班50名学生概率考试成绩如下:,75 65 80 81 92 63 77 79 54 98,85 72 66 84 83 60 82 78 64 90,81 78 76 86 68 76 73 71 88 87,65 57 46 89
35、78 66 87 79 84 78,96 88 67 38 67 75 83 82 68 85,例11,若认为学生成绩总体,试用,特殊方法估计总体的参数值.,2018年3月13日9时18分,100,解,1 75 65 80 81 92 63 77 79 54 98,2 85 72 66 84 83 60 82 78 64 90,3 81 78 76 86 68 76 73 71 88 87,4 65 57 46 89 78 66 87 79 84 78,5 96 88 67 38 67 75 83 82 68 85,44,30,20,43,58,将数据等分为5组.,2018年3月13日9时18
36、分,101,一般矩法,与最大似,然法优于,特殊方法,2018年3月13日9时18分,102,第三节 获得损失分布的一般过程,获得损失分布方法总介绍:1、经典统计法是指在数据相对完备的条件下,通过总体信息和样本信息来确定损失的概率分布、估计其未知参数。2、贝叶斯方法采用先验概率、损失函数等主观信息来估计未知参数,估计损失的概率分布。3、随机模拟应用计算机程序对实际过程进行模拟,在模拟结果的基础上对损失分布进行估算,2018年3月13日9时18分,103,第三节 获得损失分布的一般过程,获得损失分布的方法通常有经典统计方法、贝叶斯统计方法和随机模拟。一、经典统计方法基于总体信息和样本信息进行的统计
37、推断被称为经典统计学。其过程如下:(1)获得损失分布的大体轮廓得出密度函数曲线(2)选择分布类型(3)估计参数,确定概率分布:用矩法或极大似然法(4)对分布及参数进行检验:卡方检验,2018年3月13日9时18分,104,第三节 获得损失分布的一般过程,检验分布的拟合是否恰当,常用卡方检验。先把观察数据排序,然后分为若干组,组数记为n。计算每一组的数据个数Oi,再用所选择的概率分布计算每一组的“理论个数”Ei,则近似服从自由度为n-r-1的卡方分布,其中r为所选择的概率分布中参数的个数。,2018年3月13日9时18分,105,第三节 获得损失分布的一般过程,例10.5:p159设某投保人经营
38、某种车辆险,对过去发生的1000次理赔情况,平均理赔额为2200元,将个体理赔额分为5档,个档的数值范围与次数见p159表试用卡方检验判断是否能用指数分布模拟个体;理赔额的分布?,2018年3月13日9时18分,106,第三节 获得损失分布的一般过程,解:如果用指数分布模拟个体理赔额的分布,就要估计指数分布的参数,由最大似然法可以估计出 接下来计算:X2统计量的值为,2018年3月13日9时18分,107,第三节 获得损失分布的一般过程,查表可以知道,在99.5%置信度下的临界值为14.86,远远低于观察值331.89,因而拒绝原假设,即选择指数分布不恰当!,2018年3月13日9时18分,1
39、08,第三节 获得损失分布的一般过程,二、贝叶斯方法 经典统计方法是建立在具有独立性和代表性的样本信息基础上,但在风险管理实践中,有时对损失分布的估计需要加入主观判断,并利用获得的数据修正原来的估计的方法就是贝叶斯方法。,2018年3月13日9时18分,109,贝叶斯简介,贝叶斯是英国数学家.1702伦敦-1761年卒. 1742年,贝叶斯被选为英国皇家学会会员.1763年,贝叶斯发表论机会学说问题的求解中,提出了一种归纳推理的理论,其中的“贝叶斯定理(或贝叶斯公式)”给出了在已知结果E后,对所有原因C计算其条件概率(后验概率) 的公式,可以看作最早的一种统计推断程序,以后被一些统计学者发展为
40、一种系统的统计推断方法,称为贝叶斯方法. 贝叶斯方法是唯一合理的统计推断方法的统计学者,形成数理统计学中的贝叶斯学派.如今在概率、数理统计学中以贝叶斯姓氏命名的有贝叶斯公式、贝叶斯风险、贝叶斯决策函数、贝叶斯决策规则、贝叶斯估计量、贝叶斯方法、贝叶斯统计等等.,2018年3月13日9时18分,110,第三节 获得损失分布的一般过程,二、贝叶斯方法 贝叶斯统计起源于英国学者贝叶斯去世后发表的论文论有关机遇问题求解 1、是否利用先验信息是贝叶斯统计方法和经典统计方法的主要区别。 2、贝叶斯方法重视已出现的样本观察值,对尚未发生的样本观察值不予考虑,与经典统计不同。,2018年3月13日9时18分,
41、111,第三节 获得损失分布的一般过程,二、贝叶斯方法 先验信息:贝叶斯方法中评估人的主观判断称为先验信息,主要来源于经验和历史资料。 在风险管理实践中,难以获得足够样本信息,或者现有样本信息不符合对统计样本的理论要求,此时,对损失分布的估计就需要加入评估人的主观判断,并利用新获得的证据来修正原来的估计。,2018年3月13日9时18分,112,第三节 获得损失分布的一般过程,二、贝叶斯方法 设损失变量X的分布函数为 连续情形下相应的密度函数族为 。估计 的贝叶斯方法和经典统计方法区别:贝叶斯将 看做一个随机变量。其步骤如下:1、选择先验分布2、确定似然函数3、确定参数 的后验分布 4、选择损
42、失函数并估计参数,2018年3月13日9时18分,113,第三节 获得损失分布的一般过程,1、选择先验分布 设 的分布函数和密度函数分别为 和称为先验分布和先验密度。他们建立在研究者额经验和知识基础上,甚至是主观判断。,2018年3月13日9时18分,114,第三节 获得损失分布的一般过程,2、确定似然函数为了得到关于 的进一步信息,针对损失变量X进行一些试验或观察。假设获得的新信息的观察值为 , 则在 的条件下,可构造函数:,2018年3月13日9时18分,115,第三节 获得损失分布的一般过程,3、确定参数 的后验分布 由贝叶斯公式可以得到 的后验分布 。注意:对于离散分布总可以计算出分母
43、,但连续分布通过分布族即共轭分布族。,2018年3月13日9时18分,116,第三节 获得损失分布的一般过程,常用共轭分布族:(1)二项分布的贝塔分布族(2)泊松分布的伽马分布族(3)指数分布的伽马分布族(4)正态分布的正态分布族,2018年3月13日9时18分,117,第三节 获得损失分布的一般过程,常用共轭分布族:(1)二项分布的贝塔分布族 在二项分布B(n,p)中,成功概率p的共轭分布族为贝塔分布 则p的后验分布为 其中x为n次独立重复试验中的成功次数。,2018年3月13日9时18分,118,第三节 获得损失分布的一般过程,(2)泊松分布的伽马分布族在泊松分布中,泊松均值 的共轭先验分
44、布为伽玛分布 则 的后验分布为:其中 为泊松总体中抽出的样本。,2018年3月13日9时18分,119,第三节 获得损失分布的一般过程,(3)指数分布的伽马分布族在指数分布Exp( )中,参数 的共轭先验分布为伽玛分布 ,则 的后验分布为,其中 为从指数总体中抽取的样本。,2018年3月13日9时18分,120,第三节 获得损失分布的一般过程,(4)正态分布的正态分布族在正态分布 中,在 已知的条件下,正态均值 的共轭先验分布为正态分布其中 为正态总体中抽取的样本。,2018年3月13日9时18分,121,第三节 获得损失分布的一般过程,4、选择损失函数并估计参数 得到了待估计参数的后验分布后,就要给出一个参数的后验估计值。因为参数看做是随机变量,所以究竟选择什么指标作为后验估计,就取决于评估者对参数真实值和估计值之间差距的严重程度的价值判断。我们这个严重程度为“损失”,对“损失”的度量称为损失函数。,2018年3月13日9时18分,122,第三节 获得损失分布的一般过程,4、选择损失函数并估计参数最好的估计应该使得损失函数的值最小,求损失函数期望值的最小值,