1、第3.2节 贝叶斯学习,内 容,贝叶斯理论概述Brute-Force贝叶斯分类器两种概率学习算法贝叶斯最优分类器朴素贝叶斯分类器EM算法与混合模型,概述,贝叶斯推理提供了一种概率手段,基于如下的假定:待考察的量遵循某概率分布,且可根据这些概率及已观察到的数据进行推理,以作出最优的决策。贝叶斯推理为衡量多个假设的置信度提供了定量的方法贝叶斯推理为直接操作概率的学习算法提供了基础,也为其他算法的分析提供了理论框架,贝叶斯学习算法与机器学习相关的两个原因:贝叶斯学习算法能够计算显示假设概率贝叶斯方法为理解多数学习算法提供了一种有效的分析手段,而这些算法不一定直接操纵概率数据,比如决策树神经网络学习:
2、选择使误差平方和最小化的神经网络,概述,贝叶斯学习方法的特性,观察到的每个训练样例可以增量地降低或升高某假设的估计概率。先验知识可以与观察数据一起决定假设的最终概率,先验知识的形式是:1)每个候选假设的先验概率;2)每个可能假设在可观察数据上的概率分布贝叶斯方法允许假设做出不确定性的预测新的实例分类可由多个假设一起做出预测,用它们的概率来加权贝叶斯方法计算复杂度有时较高,它们可作为一个最优的决策标准衡量其他方法,贝叶斯方法的难度,难度之一:需要概率的初始知识,当概率预先未知时,可以基于背景知识、预先准备好的数据以及基准分布的假定来估计这些概率难度之二:确定贝叶斯最优假设的计算代价比较大在某些特
3、定情形下,大多通过条件独立性假设,降低计算代价,内 容,贝叶斯理论概述Brute-Force贝叶斯分类器介绍两种直接操作概率的学习算法贝叶斯最优分类器朴素贝叶斯分类器EM算法与混合模型,贝叶斯法则,机器学习与数据挖掘的任务在给定训练数据D时,确定假设空间H中的最佳假设。最佳假设一种方法是把它定义为在给定数据D以及H中不同假设的先验概率的有关知识下的最可能假设贝叶斯理论提供了一种计算假设概率的方法基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身,先验概率和后验概率,用P(h)表示在没有训练数据前假设h拥有的初始概率。P(h)被称为h的先验概率。先验概率反映了关于h是一正确假
4、设的机会的背景知识如果没有这一先验知识,可以简单地将每一候选假设赋予相同的先验概率类似地,P(D)表示训练数据D的先验概率,P(D|h)表示假设h成立时D的概率机器学习中,我们关心的是P(h|D)即给定D时h的成立的概率,称为h的后验概率,贝叶斯公式,贝叶斯公式提供了从先验概率P(h)、P(D)和P(D|h)计算后验概率P(h|D)的方法P(h|D)随着P(h)和P(D|h)的增长而增长,随着P(D)的增长而减少即如果D独立于h被观察到的可能性越大,那么D对h的支持度越小,极大后验假设,学习器在候选假设集合H中寻找给定数据D时可能性最大的假设h,h被称为极大后验假设(MAP)确定MAP的方法是
5、用贝叶斯公式计算每个候选假设的后验概率,计算式如下最后一步,去掉了P(D),因为它是不依赖于h的常量,极大似然假设,在某些情况下,可假定H中每个假设有相同的先验概率,这样式子可以进一步简化,只需考虑P(D|h)来寻找极大可能假设。P(D|h)常被称为给定h时数据D的似然度,而使P(D|h)最大的假设被称为极大似然假设只要这些命题的概率之和为1,假设空间H可扩展为任意互斥命题集合,举例:一个医疗诊断问题,有先验知识:在所有人口中,癌症患病率是0.008,对确实有病的患者的化验准确率为98%,对确实无病的患者的化验准确率为97%,问题:假定有一个新病人,化验结果为+,是否应将病人断定为有癌症?,贝
6、叶斯法则和概念学习,贝叶斯法则为计算给定训练数据下任一假设的后验概率提供了原则性方法,因此可以直接将其作为一个基本的学习方法:计算每个假设的概率,再输出其中概率最大的。这个方法称为Brute-Force贝叶斯概念学习算法。,Brute-Force贝叶斯学习总结,概念学习问题有限假设空间H定义在实例空间X上,任务是学习某个目标概念c。Brute-Force MAP学习算法对于H中每个假设h,计算后验概率输出有最高后验概率的假设上面算法需要较大计算量因为它要计算每个假设的后验概率,对于大的假设空间显得不切实际,但是它提供了一个标准以判断其他概念学习算法的性能,内 容,贝叶斯理论概述Brute-Fo
7、rce贝叶斯分类器两种概率学习算法贝叶斯最优分类器朴素贝叶斯分类器EM算法与混合模型,贝叶斯最优分类器,前面我们讨论的问题是:给定训练数据,最可能的假设是什么?另一个相关的更有意义的问题是:给定训练数据,对新实例的最可能的分类是什么?显然,第二个问题的解决可以将第一个问题的结果(MAP)应用到新实例上得到还存在更好的算法?,贝叶斯最优分类器,例子考虑一个包含三个假设h1, h2, h3的假设空间。假定已知训练数据时三个假设的后验概率分别是0.4, 0.3, 0.3,因此h1为MAP假设。若一新实例x被h1分类为正,被h2和h3分类为负,计算所有假设,x为正例的概率为0.4,为反例的概率为0.6
8、。这时最可能的分类与MAP假设生成的分类不同。,贝叶斯最优分类器,一般而言,新实例的最可能分类可通过合并所有假设的预测得到,用后验概率来加权。如果新实例的可能分类可取某集合Y中的任一值yj,那么概率P(yj|D)表示新实例分类为yj的概率新实例的最优分类为使P(yj|D)最大的yj值,贝叶斯最优分类器为:,贝叶斯最优分类器,贝叶斯最优分类器在给定可用数据、假设空间及这些假设的先验概率下使新实例被正确分类的可能性达到最大贝叶斯最优分类器的一个属性:它所做的分类可以对应于H中不存在的假设使用式子(上页最后一式)来分类X中的每个实例,按此定义的实例标注不一定对应于H中的任一单个假设h对实例的标注将贝
9、叶斯分类器看成是不同于假设空间H的另一空间H,在其上应用贝叶斯公式。H有效地包含了一组假设,它能在H中多个假设的线性组合所作的预言中进行比较,内 容,贝叶斯理论概述Brute-Force贝叶斯分类器两种概率学习算法贝叶斯最优分类器朴素贝叶斯分类器EM算法与混合模型,朴素贝叶斯分类器*,工程应用的学习任务:每个实例x可由属性值联合描述,而目标函数f(x)从某有限集Y中取值,忽略假设贝叶斯方法的新实例分类目标是在给定描述实例的属性值下,得到最可能的目标值yMAP使用贝叶斯公式变化上式,朴素贝叶斯分类器*,基于训练数据估计式(上页)中的两个数据项的值估计P(yj)很容易:计算每个目标值yj出现在训练
10、数据中的频率估计P(x1,.xn|yj)遇到数据稀疏问题,除非有一个非常大的训练数据集,否则无法获得可靠的估计朴素贝叶斯分类器引入一个简单的假设避免数据稀疏问题:在给定目标值时,属性值之间相互条件独立,即,朴素贝叶斯分类器*,朴素贝叶斯分类器的定义:从训练数据中估计不同P(xi|yj)项的数量比要估计P(x1,.,xn|yj)项所需的量小得多只要条件独立性得到满足,朴素贝叶斯分类yNB等于MAP分类,否则是近似朴素贝叶斯分类器与其他已介绍的学习方法的一个区别:没有明确地搜索可能假设空间的过程(假设的形成不需要搜索,只是简单地计算训练样例中不同数据组合的出现频率),表-1是否去打球的数据统计训练
11、数据,朴素贝叶斯分类器计算是否去打球,举例:学习分类文本,内 容,贝叶斯理论概述Brute-Force贝叶斯分类器两种概率学习算法贝叶斯最优分类器朴素贝叶斯分类器EM算法与混合模型,EM算法与GMMs,如何获得更准确的概率分布?EM算法是存在隐含变量时广泛使用的一种学习方法,可用于变量的值从来没有被直接观察到的情形,只要这些变量所遵循的概率分布的一般形式已知混合概率模型的学习用于贝叶斯网的训练,Gaussian Mixture Models (GMMS) 高斯混合模型,GMMS的参数估计,当给定从一个正态分布中抽取的数据实例x1,.,xN时,很容易计算该分布的均值的极大似然假设,它是一个特例,
12、表示如下然而,现在的问题涉及k个不同正态分布,而且不知道哪个实例是哪个分布产生的。这是一个涉及隐藏变量的典型例子对于的例子,每个实例的完整描述yi= ,其中xi是第i个实例的观测值,zij表示样本xi属于第j个正态分布,是隐藏变量,GMMS的参数估计,EM算法根据当前假设,不断地再估计隐藏变量zij的期望值,然后用这些隐藏变量的期望值重新计算极大似然假设先将假设初始化为h=计算每个隐藏变量zij的期望值Ezij计算一个新的极大似然假设h=,假定每个隐藏变量zij所取值是第一步得到的期望值Ezij。将假设替换为h=,然后循环,GMMS的参数估计-EM算法,Ezij正是实例xi由第j个正态分布生成
13、的概率第二步,使用第一步得到的Pzij来导出新的极大似然假设,多项分布及其数学期望,假设A1,A2,.,An是某一试验下的完备事件群,即事件两两互斥,分别以p1,p2,.,pn记为事件A1,A2,.,An发生的概率。现将试验独立重复N次,以Zi记为在N次试验中事件Ai出现的次数,Z=(Z1,Z2,.,Zn)为n维随机向量。则Z的概率分布就叫做多项分布。对于N次独立重复试验,事件A1,A2,.,An发生的次数分别为k1,k2,.,kn发生的概率是:,GMMS的参数估计-EM算法,第二步中表达式类似于求均值,只是变成了加权样本均值EM算法的要点:当前的假设用于估计未知变量,而这些变量的期望值再被用
14、于改进假设可以证明算法的每一次循环中,EM算法能使似然P(D|h)增加,除非P(D|h)达到局部最大,因此算法收敛到一个局部最大似然假设,GMMS的参数估计-EM算法,贝叶斯问题框架要估计k个正态分布的均值=观察到的数据是X=隐藏变量Z=表示k个正态分布中哪一个生成xi用于表达式Q(h|h)的推导单个样本的概率,GMMS的参数估计-EM算法,所有实例的概率的对数计算期望值E,GMMS的参数估计-EM算法,求使Q函数最大的假设M解上式得到另外,小结,概率学习方法利用关于不同假设的先验概率,以及在给定假设时观察到不同数据的概率的知识贝叶斯方法确定的极大后验概率假设最可能成为最优假设朴素贝叶斯分类器增加了简化假定:属性值在给定实例的分类时条件独立EM算法提供了一个通用的算法,在存在隐藏变量时进行学习。算法开始于一个任意的初始假设,然后迭代地计算隐藏变量的期望值,再重新计算极大似然假设,这个过程收敛到一个局部极大似然假设和隐藏变量的估计值,此过程可以用 MAP进行解释,