1、第五章 不确定性推理,概述 概率论基础 Bayes网络 主观Bayes方法 确定性方法 证据理论,第五章 不确定性推理,概述 概率论基础 Bayes网络 主观Bayes方法 确定性方法 证据理论,5.1 概述,不精确思维并非专家的习惯或爱好所至,而是客观现实的要求。 很多原因导致同一结果 推理所需的信息不完备 背景知识不足 信息描述模糊 信息中含有噪声 规划是模糊的 推理能力不足 解题方案不唯一,不精确推理就是从不确定性的初始事实(证据)出发,通过运用不确定性的知识,最终推出具有一定程度的不确定性却是合理或者近乎合理的结论的思维过程,5.1.1 不确定性,1. 不确定性的表示 2. 不确定性的
2、匹配 3. 组合证据的不确定性的计算 4. 不确定性的更新 5. 不确定性结论的合成,p160,证据的不确定性 规则的不确定性 推理的不确定性,5.1.2 不确定性推理的基本问题p161,不确定问题的数学模型表示的3方面问题 表示问题:表达要清楚。表示方法规则不仅仅是数,还要有语义描述。 计算问题:不确定性的传播和更新。也是获取新信息的过程。,不确定性推理例子,例如,对于如下的推理过程: R1:A2A3B1 (f1=0.8) R2:A1A2B2 (f2=0.6) R3:B1B (f4=0. 4) R4:B2B (f3=0.7)在描述这些规则时采用的都是不确定性知识表示方式,推理树结果图,表示的
3、3方面问题,语义问题:将各个公式解释清楚。语义问题:如何解释表示和计算的含义,目前多用概率方法。 如:P(B,A)可理解为当前提A为真时结论B为真的一种影响程度, P(A)可理解为证据A为真的程度,即证据的可信度。 特别关心的是f(B,A)的值:1)A(T) B(T), P (B,A)=? 2)A(T) B(F), P (B,A)=? 3)B 独立于A,P(B,A)=? 对P(A)关心的是:1)A为TRUE,P(A)?2)A为FALSE, P(A)?T:True,F:False,=1,=0,=p(B),=1,=0,5.1.3 不确定性分类方法(1),不确定性推理方法可分为形式化方法和非形式化方
4、法。 形式化方法有逻辑法、新计算法和新概率法。 逻辑法是非数值方法,采用多值逻辑和非单调逻辑来处理不确定性。传统的有基于概率理论的贝叶斯网络等。 新计算法认为概率法不足以描述不确定性,从而出现了证据理论(也叫DempsterShafter, D-S方法),确定性方法(CF法)以及模糊逻辑方法。 新概率法试图在传统的概率论框架内,采用新的计算方法以适应不确定性描述。如主观贝叶斯方法、贝叶斯网络 非形式化方法是指启发性方法,对不确定性没有给出明确的概念。,不确定性分类方法(2),不确定推理方法:工程方法、控制方法和并行确定性法。 工程法是将问题简化为忽略哪些不确定性因素。 控制法是利用控制策略来消
5、除不确定性的影响,如启发式的搜索方法。 并行确定性法是把不确定性的推理分解为两个相对独立的过程:一个过程不计不确定性采用标准逻辑进行推理;另一过程是对第一个过程的结论加以不确定性的度量。前一过程决定信任什么,后一过程决定对它的信任程度。,第五章 不确定性推理,概述 概率论基础 Bayes网络 主观Bayes方法 确定性方法 证据理论,第五章 不确定性推理,概述 概率论基础 Bayes网络 主观Bayes方法 确定性方法 证据理论,5.2 概率论基础,概率论是研究随机现象中数量规律的科学。 所谓随机现象是指在相同的条件下重复进行某种实验时,所得实验结果不一定完全相同且不可预知的现象。众所周知的是
6、掷硬币的实验。 实践证明,采用概率论的思想方法考虑能够得到较好的结果。 概率论的基本概念和贝叶斯定理。,5.2.1 随机事件,随机实验:随机实验是一个可观察结果的人工或自然的过程,其产生的结果可能不止一个,且不能事先确定会产生什么结果。 样本空间:样本空间是一个随机实验的全部可能出现的结果的集合,通常记作,中的点(即一个可能出现的实验结果)成为样本点,通常记作。 随机事件:随机事件是一个随机实验的一些可能结果的集合,是样本空间的一个子集。常用大写字母A,B,C,表示。,例如:投币实验是一个随机实验,它的样本空间是全部可能出现的结果的集合【正面,反面】 随机事件:随机事件是一个随机实验的一些可能
7、结果的集合,是样本空间的一个子集。 随机事件:现在投币5次,则有5个随机事件分别为【正面,正面,反面,正面,反面】,事件间的关系与运算,两个事件A与B可能有以下几种特殊关系: 包含:若事件B发生则事件A也发生,称“A包含B”,或“B含于A”,记作A B或B A。 等价:若A B且B A,即A与B同时发生或同时不发生,则称A与B等价,记作A=B。 互斥:若A与B不能同时发生,则称A与B互斥,记作AB= 对立:若A与B互斥,且必有一个发生,则称A与B对立,记作或,又称A为B的余事件,或B为A的余事件。 任意两个事件不一定会是上述几种关系中的一种。,概率论基础(事件间的关系与运算 ),设A,B,A1
8、,A2,An为一些事件,它们有下述的运算: 交:记C=“A与B同时发生”,称为事件A与B的交,C=|A且B,记作 或。类似地用表示事件“n个事件A1, A2, An同时发生”。 并:记C=“A与B中至少有一个发生”,称为事件A与B的并,C=|A或B,记作。类似地用表示事件“n个事件A1, A2, An中至少有一个发生”。 差:记C=“A发生而B不发生”,称为事件A与B的差,C=|A但B,记作或A-B。 求余:,概率论基础(运算的性质 ),事件的运算有以下几种性质: 交换率: 结合律:分配律:摩根率: 事件计算的优先顺序为:求余,交,差和并。,5.2.2 事件的概率1.概率定义,定义:设为一个随
9、机实验的样本空间,对上的任意事件A,规定一个实数与之对应,记为P(A),满足以下三条基本性质,称为事件A发生的概率:若二事件AB互斥,即,则以上三条基本规定是符合常识的。,,,例掷一颗骰子的试验E, 观测出现的点数: 事件A 表示“偶数点”, 事件B 表示“小于4 的奇数”, 事件C 表示“大于2 的点数”, 用集合的列举表示法表示下列事件: , A,B, C, A + B, B - C, B C, AB , A + C . 解. 根据题意知 =1,2,3,4,5,6, A =2,4,6, B =1,3, C =3,4,5,6, A + B =1,2,3,4,6, B - C =1, BC =
10、3, AB =1,3, A + C =1,3,4,5,6.,例 随机地抽取三件产品。设A 表示“三件产品中至少有一件是废品”, B 表示“三件中至少有两件是废品”, C 表示“三件都是正品”,问A , B , A + C, A C, A - B 各表示什么事件? 解 A =“三件都是正品”= C; B =“三件产品中至多有一件废品”; A+C = (必然事件); AC = (不可能事件); A-B =“三件中恰有一件废品”.,5.2.2 事件的概率2.概率性质p166,定义:设An, n=1, 2, 为一组有限或可列无穷多个事件,两两不相交,且 ,则称事件族An, n=1, 2, 为样本空间的
11、一个完备事件族,又若对任意事件B有BAn=An或, n=1, 2, ,则称An, n=1, 2, 为基本事件族(其中BA=B和A的交集)。完备事件族与基本事件族有如下的性质:定理:若An, n=1, 2, 为一完备事件族,则,且对于一事件B有,,,基本事件( ):试验的每一个结果都是一个事件,这些事件不可能再分解成更简单的事件 一般的事件由基本事件复合而成。例如:考察掷一个骰子一次的试验,可能发生的结果有6种 “掷得1点” “掷得2点” “掷得3点” “掷得4点” “掷得5点” “掷得6点” “掷得奇数” “掷得偶数”,基本事件,复合事件,有若An, n=1, 2, 为一基本事件族,则,例如掷
12、一个骰子得到的一个组合(B)的可能性 P(14)=P(2,6,6)+P(3,6,5)+P(4,6,4)+,5.2.2 事件的概率3.统计概率性质,对任意事件A,有 必然事件的概率P() =1,不可能事件的概率P() = 0 对任意事件A,有 设事件A1,A2,An(kn)是两两互不相容的事件,即有,则设A,B是两事件,则,,,5.2.2 事件的概率4.条件概率,定义:如果两个事件A 和B 不是互相独立的,并且知道事件B 中的一个事件已经发生,我们就能得到关于P(A)的信息。这反映为A 在B 中的条件概率(或后验概率),记为P(AB) : P(A)在概率推理中称为边缘概率(先验概率)。 P(AB
13、)称为A与B的联合概率。有联合概率公式:P(AB)=P(A/B)*P(B),,,条件概率(或后验概率)例子: A水藻发生 B日平均温度超过25C 已知从藻类和温度的长期观察记录中得到概率:则:我们知道,如果水温超过25C,则发生水藻的概率显著增加。,5.2.2 事件的概率-条件概率性质p168,, 若 ,则乘法公式:全概率公式:设A1,A2,An互不相交, ,且 ,则对于任意事件A有,,,假设样本空间S 被分成一个含有n 个互斥事件的集合,每个事件称为S 的一个划分:考虑S 中的一个任意事件B,如下图所示:,全概率公式的解释(1),全概率公式的解释(2),事件B 可以写成由n 个不相交(互斥)
14、事件BA1,,BA2,., BAn 组成,记为: P(B)=P(BA1)+P(BA2)+,P(BAn) 这隐含了全概率定理:,=P(BA1),5.2.3 贝叶斯定理,,,设A,B1,B2,Bn为一些事件,P(A)0,B1,B2,Bn互不相交,P(Bi)0, i=1, 2, , n,且 ,则对于k=1, 2, , n,,=P(A),贝叶斯公式容易由条件概率的定义和全概率公式得到。在贝叶斯公式中,P(Bi), i=1, 2, , n称为先验概率,而P(Bi|A) i=1, 2, , n称为后验概率也是条件概率。,例 1 为了提高某产品的质量,企业决策人考虑增加投资来改进生产设备,预计需投资90万元
15、。但从投资效果看,下属部门有两种意见:一是认为改进设备后高质量产品可占90%;二是认为改进设备后高质量产品可占70%。根据经验决策人认为第一种意见可信度有40%,第二种意见可信度有60%。为慎重起见,决策人先做了个小规模试验:试制了5个产品,结果全是高质量产品。问现在决策人对两种意见的可信程度有没有变化?,例题分析,回总目录,回本章目录,解答:此问题中,决策人根据经验对两种意见的看法属于先验信息,在决策人试验之后,就需要利用贝叶斯公式,结合试验结果进行后验分析了。,首先计算得到:,然后用贝叶斯公式计算 和 的后验概率,,可以看到,试验后决策人对两种意见的可信程度变为了0.7和0.3。这就是贝叶
16、斯决策的后验概率。,后验概率的使用,感冒引起发烧,但也可能是其他原因。 现在已经知道感冒的概率(统计),也知道因感冒而引起发烧的概率(统计),已经知道发烧的概率(统计), 已知某人发烧,问他是否感冒是感冒引起的?-由先验概率到后验概率的转换 A为感冒,B为发烧,已知P(A)和P(B/A) 求P(A/B)=P(AB)/P(B)=P(A)*P(B/A)/P(B),贝叶斯推理使用,感冒引起发烧,但也可能是其他原因。 现在已经知道感冒的概率(统计),也知道因感冒而引起发烧的概率(统计)。也知道感冒而不发烧的概率(统计),已知某人发烧,问他是否是感冒引起的?-贝叶斯推断 A为感冒,B为发烧,已知P(A)
17、和P(B/A) 求P(A/B)=(P(A)*P(B/A)/P(B)其中P(B)=P(B/A)*P(A)+P(A)*P(B/A),各种情况的概率是多少?,贝叶斯定理,设一个学校里有60男生和40%女生。女生穿裤子的人数和穿裙子的人数相等,所有男生穿裤子。一个人在远处随机看到了一个穿裤子的学生。那么这个学生是女生的概率是多少? 使用贝叶斯定理,事件A是看到女生,事件B是看到一个穿裤子的学生。我们所要计算的是P(A|B)。 P(A)是忽略其它因素,看到女生的概率,在这里是40% P(A)是忽略其它因素,看到不是女生(即看到男生)的概率,在这里是60% P(B|A)是女生穿裤子的概率,在这里是50%
18、P(B|A)是男生穿裤子的概率,在这里是100% P(B)是忽略其它因素,学生穿裤子的概率,P(B) = P(B|A)P(A) +P(B|A)P(A),在这里是0.50.4 +10.6 = 0.8. 根据贝叶斯定理,我们计算后验概率P(A|B),贝叶斯定理课堂练习,已知:有3个苹果,和5个梨子,苹果为黄色的概率为20%,梨子为黄色的概率为80%,问,假定我在这堆生果中观察到了一个黄色的生果,问这个生果是梨子的概率是若干。,解:P(A):生果是苹果的概率=3/8 P(B):生果是梨子的概率=5/8 P(C):果子是黄色的概率(未知) P(C/A)=20% P(C/B)=80% P(B/C)=,第
19、五章 不确定性推理,概述 概率论基础 Bayes网络 主观Bayes方法 确定性方法 证据理论,第五章 不确定性推理,概述 概率论基础 Bayes网络 主观Bayes方法 确定性方法 证据理论,5.3 贝叶斯网络,二十世纪八十年代贝叶斯网络(Bayes Network)成功地应用于专家系统 在综合先验信息(领域知识)和数据样本信息的前提下,还可避免只使用先验信息可能带来的主观偏见 贝叶斯网络方法的不确定性表示基本上是保持了概率的表示方式,可信度计算也是概率计算方法,只是在实现时,各具体系统根据应用背景的需要采用各种各样的近似计算方法。 推理过程称为概率推理。因此,贝叶斯网络没有其它确定性推理方
20、法拥有的确定性表示、计算、语义解释等问题。,贝叶斯网络(事件的独立性),独立:如果X与Y相互独立,则P(X,Y) = P(X)P(Y)P(X|Y) = P(X) 条件独立:如果在给定Z的条件下,X与Y相互独立,则P(X|Y, Z) = P(X|Z) 实际中,条件独立比完全独立更重要,贝叶斯网络(联合概率),联合概率:P(X1, X2, , XN) 二值,则有2N可能的值,其中2N-1个独立。 如果相互独立: P(X1, X2, , XN) = P(X1) P(X2) P(XN) 条件概率:P(X1, X2, , XN) = P(X1|X2, , XN) P(X2, , XN) 迭代表示: P(
21、X1, X2, , XN) = P(X1) P(X2| X1) P(X3| X2X1)P(XN|XN-1, , X1)= P(XN) P(XN-1| XN) P(XN-2| XN-1XN)P(X1|X2, , XN)实际应用中就是利用条件独立性的性质简化网络复杂性的。,5.3.1 贝叶斯网络基本概念,贝叶斯网络: 一系列变量的联合概率分布的图形表示。 一个表示变量之间的相互依赖关系的数据结构;图论与概率论的结合。 组成:贝叶斯网络结构图+节点和节点之间的条件概率表(CPT)p171,贝叶斯网络建立步骤:确定为建立网络模型有关的变量及其解释 建立一个表示条件独立断言的有向无环图。 指派局部概率分
22、布P(xi/pai)其中,Pai是xi的父节点集合。,贝叶斯网络(因果关系网络p172),假设: 命题S(smoker):该患者是一个吸烟者 命题C(coal Miner):该患者是一个煤矿矿井工人 命题L(lung Cancer):他患了肺癌 命题E(emphysema):他患了肺气肿 由专家给定的假设可知,命题S对命题L和命题E有因果影响,而C对E也有因果影响。命题之间的关系可以描绘成因果关系网。每一个节点代表一个证据,每一条弧代表一条规则(假设),连接结点的弧表达了有规则给出的,节点间的直接因果关系。其中,节点S,C是节点L和E的父节点或称双亲节点,同时,L,E也称为是S和C的子节点或称
23、后代节点。,贝叶斯网络(因果关系图例),其中,节点S,C是节点L和E的父节点或称双亲节点,同时,L,E也称为是S和C的子节点或称后代节点。,因果关系图例,贝叶斯网络(贝叶斯网络p173),贝叶斯网就是一个在弧的连接关系上加入连接强度的因果关系网络 。,贝叶斯网络(图例),贝叶斯网络图例(有向无环图)无环图和指定概率值P(A), P(B), P(B|AC), P(E|B), P(B|D), P(F|E), P(G|DEF),贝叶斯网络(图例),非贝叶斯网络图例(有环),贝叶斯网络(定义),两个部分 贝叶斯网络结构图,这是一个有向无环图(DAG: Directed Acyclic Graph),其
24、中图中的每个节点代表相应的变量。当有向弧由节点A指向节点B时,则称:A是B的父节点;B是A的子节点。 节点和节点之间的条件概率表(Conditional Probability Table, CPT),也就是一系列的概率值,表示了局部条件概率分布。P(node|parents) 。 目的:由证据得出原因发生的概率。 即观察到P(Y),求P(X|Y),贝叶斯网络(如何构造),选择变量,生成节点从左至右(从上到下),排列节点 填充网络连接弧,表示节点之间的关系 得到条件概率关系表条件概率表示的概率网络有时叫“Belief Nets”,贝叶斯网络(计算),有向非循环图是各个节点变量关系传递的合理表达
25、形式。 条件概率的引入使得计算较之全连接网络有了大大的简化。 CPT表相对比较容易得到。有时可以用某种概率分布表示,需要做的指示计算表示的参数。,贝叶斯网络(计算续),简单的联合概率可以直接从网络关系上得到 如:P(X, Y) = P(X)P(Y|X) 又如:P(X, Y, Z) = P(X)P(Y)P(Z|X, Y),贝叶斯网络(例),CPT表为: P(S) = .04 P(C) = 0.3 (E|S, C) = 0.9 P(E|S, C) = 0.3 P(E|S, C) = 0.5 贝叶斯网络实例图 P(E|S, C) = 0.1 。,贝叶斯网络(例续),上图例中的联合概率密度为由图可知:
26、E与L在S条件下独立,所以P(E|S,C,L) P(E|S,C), L与C在S, E条件下独立,所以P(L|S,C)= P(L|S) C与S在E条件下独立,所以P(C|S)=P(C) 以上三条等式的正确性,可以从贝叶斯网的条件独立属性:每个变量与它在图中的非继承节点在概率上是独立的推出。同样,从后面给出的D分离的定义的特性中也可以得到相同的结论。 简化后的联合概率密度为,显然,简化后的公式比原始的数学公式更加简单明了,计算复杂度低很多。如果原贝叶斯网中的条件独立语义数量较多,这种减少更加明显。,贝叶斯网络(独立),独立 P(X, Y) = P(X)P(Y) P(X|Y) = P(X) P(Y|
27、X) = P(Y) 独立时求解 可以直接在网络图上求,贝叶斯网络(条件独立),对于X, Y, E: X与Y在给定E的条件下独立 P(X|Y,E) = P(X|E) P(Y|X,E) = P(Y|E) 多个变量组:d分离(d-separate) P(X1,X2,Xn|Y1,Y2,Ym,E1,E2,Ep) =P(X1,X2,Xn|E1,E2,Ep) 如果一组节点X在给定E的条件下,从Xi到Yj的每一条通路都被即Ekd分离,则称X独立于另一组节点Y(节点组E d分离X与Y),贝叶斯网络(D分离),图中有三个节点S,L,E L(结果)影响S(起因),S影响E(另一个结果)。 如果给定原因S后,L并不能
28、告诉我们有关E的更多事情。即对于S,L和E是相对独立的,那么在计算S和L的关系时就不用过多地考虑E,将会大大减少计算复杂度。 称S能D分离L和E。 D分离是一种寻找条件独立的有效方法。,贝叶斯网络( D分离-串行),Linear串行连接中,事件X通过事件Z影响事件Y,反之事件Y也是通过事件Z影响事件X。但是,如果原因证据Z是给定的,X并不能给Y更多的东西,或者说,从X那里得到更多的信息。此时称,如果Z是已知的,那么通道就被阻塞,X和Y就是独立的了。则称X和Y是被Z节点D分离的。,贝叶斯网络( D分离(分叉连接)),Diverging 如果,父节点Z是已知的,没有更多的信息能够通过Z影响到所有子
29、节点。同理,父节点Z是已知时,子节点X, , N是相互独立的。称子节点X, , N是被Z节点D分离的。,贝叶斯网络( D分离(汇集连接)),汇集(Converging)略有不同 如果不从父节点得到推断,子节点Z就一无所知,那么,父节点是相互独立的,它们之间没有相互影响。 如果,某事件影响了Z,那么,各个父节点就不是相互独立的了。该事件可以直接影响Z,也可以通过它的后代节点影响Z。这种现象称作条件依存。总之,如果子节点有了变化,或子节点的后代节点发生变化,信息是可以通过汇集连接传播的。,贝叶斯网络( D分离(条件依存)),事件e直接影响节点Z 事件e影响节点Z的后代节点,贝叶斯网络( D分离(定
30、义)),对于给定的结点集,如果对贝叶斯网中的结点Vi和Vj之间的每个无向路径(即不考虑DAG图中弧的方向性的路径),在路径上都有某个结点Vb,如果有属性: Vb在中,且路径上的两条弧都以Vb为尾(即弧在Vb处开始(出发),分叉连接) Vb在中,路径上的一条弧以Vb为头,一条以Vb为尾(串行连接) Vb和它的任何后继都不在中,路径上的两条弧都以Vb为头(即弧在Vb处结束,汇集连接,但没有后代节点)则称Vi和Vj 被Vb结点阻塞。 如果Vi和Vj被证据集合中的任意结点阻塞,则称Vi和Vj是被集合D分离,结点Vi和Vj条件独立于给定的证据集合,可形式化表示为: ,或,贝叶斯网络( D分离(图示)),
31、贝叶斯网络( 定义),条件独立: 如具有以上三个属性之一,就说结点Vi和Vj条件独立于给定的结点集。 阻塞: 给定证据集合,当上述条件中的任何一个满足时,就说Vb阻塞相应的那条路径。 D分离: 如果Vi和Vj之间所有的路径被阻塞,就叫证据集合可以D分离Vi和Vj,贝叶斯网络(推理),建立贝叶斯网络的目的 有了网络。可以提出问题: P(问题|证据), 如:P(吸烟|肺癌) 进行概率推理 与谓词逻辑有相似之处 。如:患病(吸烟,肺癌) 在某些场合下有有效的推理方法。有一些工具包。 一般情况下是很困难的,原因 不是所有的CPT表都能够得到 网络结构大且复杂 NP-hard推理 我们要做的是,将问题正
32、确的表示为合理的网络形式,选用适合的算法。,贝叶斯网络(推理续),贝叶斯网络通常使用因果或诊断规则与推理 因果规则:X Cause Y with some probability 诊断规则 :Y is evidence of X with some probability 因果推理:Given cause C, determine P(Query|C) 诊断推理:Given evidence E, determine P(Query|E),贝叶斯网络(推理续),推理需求:P(X|Y) 诊断推理是从效果到起因证据是一些征兆:X是起因, Y是征兆 因果推理是从起因到效果证据是一些起因: X是征兆,
33、 Y是起因 辩解推理X和Y是起因,Z是两个起因的征兆。这时可以用一个起因Y解释另一个起因X。,贝叶斯网络(推理例),下雨、草湿、洒水,贝叶斯网络(推理例续),条件: 下雨 草湿 出现虫子 求: P(Raining|Worm Sighting),P(Y|X),下雨,草湿,Query:P(X|Z),P(X),出现虫子,P(Z|Y),贝叶斯网络的推理模式,第一种是因果推理,根据原因节点的概率分布推导结果节点的概率分布; 第二种是诊断推理,和因果推理相反,按照给定结果节点的概率分布推导原因节点的概率分布; 第三种是辩解推理,根据一个特定的状态推导其他节点的状态,辩解推理使用在诊断推理中的因果推理。,这
34、三种推理模式如图 所示。节点V2向V6的推理过程是因果推理;V4向V1的推理过程是诊断推理;V1向V2、V4向V6的推理过程是辩解推理。,贝叶斯网络(因果推理例),给定患者是一个吸烟者(S),计算他患肺气肿(E)的概率P(E|S)。S称作推理的证据,E叫询问结点。 首先,E的另一个父结点(C),P(E|S)=P(E,C|S)+P(E,C|S); 右边的第一项 ,P(E,C|S)P(E,C,S)/P(S)P(E|C,S)*P(C,S)/P(S)P(E|C,S)*P(C|S)同理可得公式的右边的第二项为:P(E,C|S) = P(E|C,S)*P(C)。 由此可得: P(E|S) = P(E| C
35、,S)*P(C)+P(E|C,S)*P(C) 如果采用概述中的例题数据,有P(C) = 1 - P(C),则有, P(E|S)0.9*0.3+0.3*(1-0.3)=0.48 主要操作: 按照给定证据的V和它的所有双亲的联合概率,重新表达给定证据的询问结点的所求条件概率。 直到所有的概率值可从CPT表中得到,推理完成。,贝叶斯网络需要掌握大纲,什么是贝叶斯网络 无向图和条件概率表 为什么要讲条件独立(利用条件独立化简贝叶斯网络,使得可利用条件概率表 ) 哪些情况可以条件独立(D分离) 贝叶斯网络的作用(因果、诊断、辩解),贝叶斯网络(推理自学),Artificial Intelligence:
36、 A New Synthesis Nils. J. Nilsson, 机械工业出版社,1999Probabilistic Inference in Polytrees (p.332),第五章 不确定性推理,概述 概率论基础 Bayes网络 主观Bayes方法 确定性方法 证据理论,第五章 不确定性推理,概述 概率论基础 Bayes网络 主观Bayes方法 确定性方法 证据理论,* 5.4 主观贝叶斯方法,在专家系统中,概率一般解释为专家对证据和规则的主观信任度。,在Prospector的探矿系统的研究过程中提出的。 AB: IF A THEN B,贝叶斯规则:当B为n个互不相容事件的集合时,贝
37、叶斯公式可写为,5.5.1 规则的不确定性,规则的不确定性 IF A THEN B 定义:,LS 表示A为真时,对B的影响。(规则成立的充分性),LN表示A为假时,对B的影响。(规则成立的必要性)(确定性理论中没有考虑这点),规则的不确定性(1),几率函数O(X)公式1,O(X)称为先验几率。表示证据X的出现概率和不出现的概率之比,显然O(X)是P(X)的增函数,且有: 当 P(X)0, 有O(X)0 当 P(X)0.5, 有 O(X)1 当 P(X)1, 有O(X) 由此可见,几率函数实际上表示了证据X的不确定性。 相应有, 称为后验几率,规则的不确定性(2),O(X)的性质 P(X) =
38、0时, O(X) = 0 假 P(X) = 0.5时, O(X) = 1 P(X) = 1时, O(X) = 真 O(X)与LN,LS的关系 O(B|A) = LS O(B) O(B|A) = LN O(B),规则的不确定性(3),,且必须满足:,规则的不确定性(4),LS、LN,不独立。 LS, LN不能同时 或 LS, LN可同时1,5.4.3 推理计算(1),A必出现时:(规则1)计算由先验概率到后验概率的转换 O(B|A) = LSO(B) O(B|A) = LNO(B)若需要概率时:,5.4.4 证据A的不确定性,P(A)或O(A)表示证据A的不确定性,证据A的不确定性,A(证据)不
39、确定时(P(A)!=1)的含义 观察,证据,结论的关系,知识库和事实之间的关系 IF 发烧 then 有炎症(LS,LN) 某人温度38,问其有炎症的概率? 这里发烧是证据,结论是炎症,某人温度38是(事实,又叫观察),这时发烧并不确定。,推理计算(2),A不确定时:即P(A) 1 (1976年的算法) 向前看一步A, A 为与A有关的所有观察P(B|A) = P(B|A)P(A| A)+P(B|A)P(A| A) P(A| A) = 1时,证据A必然出现(P185)P(A| A) = 0时,P(A| A) = P(A) 时,(A对A无影响),由上式P(B| A) = P(B),推理计算(3)
40、,P(A| A)与P(B| A)坐标系上的三点:(P96)总之是找一些P(A| A)与P(B| A)的相关值,两点也可以做曲线(或折线、直线)。由差值法从线上得到其它点的结果,具体过程可参考教科书上例题。,推理计算(4),插值计算公式(规则2): A不确定时,A为A的观察,A为B的证据,,线性插值图,推理计算(5),两个证据时:(规则3),推理计算(6),互相独立证据导出同一假设(规则4),例题(1),已知:P(A)=1,P(B1)=0.04, P(B2)=0.02R1:AB1 LS=20 LN=1R2:B1B2 LS=300 LN=0.001 计算:P(B2|A)。分析:当使用规则R2时,证
41、据B1并不是确定的发生了,即P(B1)1,因此要采用插值方法。 解:先依照A必然发生,由定义和规则1得:O(B1) = P(B1)/(1-P(B1) = 0.04/(1-0.04) = 0.0417O(B1|A) = LS*O(B1)=0.83P(B1|A) = O(B1|A )/(1+O(B1|A ) = 0.83/(1+0.83) = 0.454 然后假设P(B1|A)=1,计算: O(B2) = P(B2)/(1-P(B2) = 0.02 P(B2|B1) = LS*O(B2)/(1+ LS*O(B2) = 300*0.02/(300*0.02+1)=0.857(规则1) 最后进行插值:
42、P(B1|A) P(B1), P(B2)=0.02, P(B1)=0.04 (已知), P(B2|A) = 0.02 + (0.857-0.02)(0.454-0.04)/(1-0.04) = 0.38(应用规则2),AB1B2,例题(2),已知:证据A1,A2必然发生,且P(B1)0.03规则如下:R1:A1B1 LS=20 LN=1; R2:A2B1 LS=300 LN=1 求B1的更新值。 解:依R1,P1(B)0.03O(B1)0.03/(1-0.03)=0.030927O(B1|A1)=LSO(B1)=200.030927=0.61855(应用规则1)P(B1|A1)= 0.6185
43、5/(1+0.61855)=0.382使用规则R1后,B1的概率从0.03上升到0.382依R2:O(B1|A1A2)= O(B1) =185.565 (应用规则4)P(B1|A1A2)= 185.565/(1+185.565)=0.99464使用规则R2后,B1的概率从0.382上升到0.99464,A1,A2,B1,*,*,主观贝叶斯方法,主观Bayes方法的评价 优点: 计算方法直观、明了。 缺点: 要求Bj相互无关(实际不可能)。 P(A| Bi)与P(Bi) 很难计算。 应用困难。,例3,设有如下知识: R1:IF A1 THEN (20,1 ) B R2:IF A2 THEN (3
44、00,1) B R3:IF A3 THEN (75,1) B R4: IF A4 THEN (4,1) B 已知:结论B 的先验概率P(B)=0.03,当证据A1,A2,A3,A4必然发生后,求结论B的概率变化。 解法一:利用合成算法求结论B的后验概率。 P(B/A1)= =0.382 O(B/A1)=0.61855 P(B/A2)= =0.903 O(B/A2)=9.309 同理算出O(B/A3)和O(B/A4) O(B/A1,A2,A3,A4)= * * * =61333.3,A1,A2,B1,A3,A4,【例4】设有规则r1: IF E1 THEN (2, 0.0001) H1r2: I
45、F E1 AND E2 THEN (100, 0.001) H1r3: IF H1 THEN (200, 0.01) H2已知:P(E1)=P(E2)=0.6P(H1)=0.091,P(H2)=0.01 用户回答: P(E1|S1)=0.76, P(E2|S2)=0.68求:P(H2|S1,S2)=?,S1,S2,计算步骤,(1) 计算O(H1|S1)(用规则1) (2) 计算O(H1|(S1 AND S2)(用规则3)由于r2的前件是E1、E2的合取关系,且已知P(E1|S1)=0.76,P(E2|S2)=0.68, 即P(E2|S2)P(E1|S1)。按合取取最小的原则,这里仅考虑E2对H
46、1的影响,即把计算P(H1|(S1 AND S2)的问题转化为计算O(H1|S2)的问题。(3) 计算O(H1|S1, S2)(用规则4) (4) 计算P(H2|S1,S2)(用公式1)对r3 ,H1相当于已知事实,H2为结论。将H2的先验概率P(H2)更新为在H1下的后验概率P(H2|H1),课堂练习写出所用规则,设有如下推理规则r1: IF E1 THEN (2, 0.00001) H1r2: IF E2 THEN (100, 0.0001) H1r3: IF E3 THEN (200, 0.001) H2r4: IF H1 THEN (50, 0.1) H2 且已知P(E1)= P(E2
47、)= P(H3)=0.6, P(H1)=0.091, P(H2)=0.01, 又由用户告知:P(E1| S1)=0.84, P(E2|S2)=0.68, P(E3|S3)=0.36 请用主观Bayes方法求P(H2|S1, S2, S3)=?,本章习题p202/5.9,第五章 不确定性推理,概述 概率论基础 Bayes网络 主观Bayes方法 确定性方法 证据理论,第五章 不确定性推理,概述 概率论基础 Bayes网络 主观Bayes方法 确定性方法 证据理论,5.5 确定性方法(可信度方法),MYCIN系统研制过程中产生的不确定推理方法,第一个采用了不确定推理逻辑,70年代很有名。提出该方法
48、时应遵循的原则 不采用严格的统计理论。使用的是一种接近统计理论的近似方法。 用专家的经验估计代替统计数据 尽量减少需要专家提供的经验数据,尽量使少量数据包含多种信息。 新方法应适用于证据为增量式地增加的情况。 专家数据的轻微扰动不影响最终的推理结论。,医疗专家系统的特点是信任和不信任的关系问题,事实上很多情况不会出现非此即彼的现象。如p190例子 MYCIN系统综合信任和不信任情况定义可信度。,理论基础 以定量法为工具,比较法为原则的相对确认理论。 采用此方法的MYCIN系统的诊断结果不是只给出一个最可信结论及其可信度,而是给出可信度较高的前几位,供人们比较选用。 规则 规则的不确定性度量 证据(前提)的不确定性度量。 推理计算。,