1、条件随机场 conditional random fields,1,条件随机场模型是由Lafferty在2001年提出的一种典型的判别式模型。它在观测序列的基础上对目标序列进行建模,重点解决序列化标注的问题条件随机场模型既具有判别式模型的优点,又具有产生式模型考虑到上下文标记间的转移概率,以序列化形式进行全局参数优化和解码的特点,解决了其他判别式模型(如最大熵马尔科夫模型)难以避免的标记偏置问题。条件随机场理论(CRFs)可以用于序列标记、数据分割、组块分析等自然语言处理任务中。在中文分词、中文人名识别、歧义消解等汉语自然语言处理任务中都有应用,表现很好。目前基于 CRFs 的主要系统实现有
2、CRF,FlexCRF,CRF+缺点:训练代价大、复杂度高,2,预备知识 产生式模型和判别式模型(Generative model vs. Discriminative model) 概率图模型 隐马尔科夫模型 最大熵模型,3,机器学习方法的两种分类: 产生式模型和判别式模型,产生式模型(生成模型)估计联合概率 P(x, y), 因可以根据联合概率来生成样本 HMMs,判别式模型(判别模型)估计条件概率 P(y|x), 因为没有x的知识,无法生成样本,只能判断分类 SVMs CRF MEM(最大熵),假定输入x, 类别标签y,4,一个举例: (1,0), (1,0), (2,0), (2, 1
3、) 产生式模型: p(x, y): P(1, 0) = 1/2, P(1, 1) = 0, P(2, 0) = 1/4, P(2, 1) = 1/4. 判别式模型: P(y|x): P(0|1) = 1, P(1|1) = 0, P(0|2) = 1/2, P(1|2) = 1/2,5,o和s分别代表观察序列和标记序列 产生式模型构建o和s的联合分布p(s,o) 判别式模型构建o和s的条件分布p(s|o)产生式模型中,观察序列作为模型的一部分; 判别式模型中,观察序列只作为条件,因此可以针对观察序列设计灵活的特征。,6,产生式模型:无穷样本=概率密度模型 = 产生模型=预测 判别式模型:有限样
4、本=判别函数 = 预测模型=预测 产生式模型可以根据贝叶斯公式得到判别式模型,但反过来不行。一般认为判别型模型要好于生成型模型,因为它是直接根据数据对概率建模,而生成型模型还要先求两个难度相当的概率。,7,用图的形式表示概率分布 基于概率论中贝叶斯规则建立起来的,解决不确定性问题,可以用于人工智能、 数据挖掘、 语言处理文本分类等领域图模型是表示随机变量之间的关系的图,图中的节点表示随机变量,缺少边表示条件独立假设。因此可以对联合分布提供一种紧致表示。,概率图模型,8,概率图模型,根据边是否有方向,有两种主要的图模型 无向图:亦称马尔科夫随机场(Markov Random Fields, MR
5、Fs)或马尔科夫网络(Markov Networks) 有向图:亦称贝叶斯网络(Bayesian Networks)或信念网络(Belief Networks, BNs). 还有混合图模型,有时称为链图(chain graphs),9,10,无向图,无向图 有限集合V:顶点/节点,表示随机变量 集合E:边/弧两个节点邻接:两个节点之间存在边,记为 路径:若对每个i,都有 ,则称序列 为一条路径,11,无向图:联合分布的因式分解,完全(子)图:每个节点与集合中其他节点之间都有边 子块(Clique):图中最大的完全子图例下图的子块有C1=X1, X2, X3和C2=X2, X3, X4,12,无
6、向图:联合分布的因式分解,若一个联合分布 可由无向图中子块势能函数的乘积表示则称该分布可由图中因式分解。 其中 为图中所有子块的集合,对每个子块Ci,赋予一个非负的势能函数 ,Z为归一化常数在上述例子中,,13,无向图:联合分布的因式分解,若一个分布可用一个特定的图因式分解,则称该分布满足无向因式分解性质F 定理:对任意图和任意分布:F = G定理:(Hammersley-Clifford):对严格正的分布和任意图: G = F,势函数部分,14,无向图:联合分布的因式分解,例:无向图及其势能函数表联合分布,子块:,隐马尔可夫模型(Hidden Markov Model, HMM),离散马尔可
7、夫过程 两个假设:无后效性 马尔科夫性不动性 状态与时间无关 在隐马尔科夫模型中,我们不知道模型所经过的序列状态,只知道状态的概率函数。 双重的随机过程:模型的状态转换过程是不可见的可观察事件的随机过程是隐蔽的五元组 P96,15,隐马尔可夫模型(Hidden Markov Model, HMM),三个基本问题估计问题 序列问题 训练问题或参数问题,16,隐马尔可夫估计问题,得到红,黄,蓝这样的观察序列的概率 P(O|)前向、后向和两者结合的算法,17,隐马尔可夫序列问题,我们已经知道了结果是红,黄,蓝,但是怎样从不同的袋子中取出的?求袋子的最优的序列 维比特算法 单个状态单独的具有最大概率,
8、但是可能两个状态之间的转移概率为0,这是,这个状态序列不合法。 维比特算法不是状态序列中的单个状态,而是整个序列状态,不合法的状态序列的概率为0,不可能被选为最优状态序列。,18,隐马尔可夫训练或参数估计的问题,如何调整模型的参数,使红、黄、蓝这样的观察序列出现的概率最大 期望最大化算法 这种迭代爬山算法可以局部地使P(O|)最大化,19,最大熵模型(Max Entropy Model,MEM),最大熵原理是基于这种假设:在已知限制条件下,未知的概率分布应该均等看待。此时,模型的熵最大。 最大熵原理的实质是,在已知部分知识前提下,关于未知分布最合理的推断是符合已知知识的最不确定或最随机的推断
9、最大熵模型主要是在已有的一些限制条件下估计未知的概率分布。最大熵的目标就是在这些特征函数的期望值等于观测值的限制条件下,具有最大熵的那个分布。,20,最大熵模型面临两个问题,一是如何确定模型是均匀的 二是根据一个约束集如何找到一个最优的均匀分布。熵的计算公式如下熵有如下的性质: 由上面熵取得最大值时分布可知,当熵模型在满足约束条件下取得最大值时,熵模型是均匀的,21,模型的目标是给定上下文信息 x ,计算输出为 y 的条件概率 p (y | x) 最大熵模型的约束条件 :,22,目的1:得到条件概率的指数形式,23,极大似然法,思想方法 极大似然法的想法是,一随机试验已知有若干个结果,如果在一
10、次试验中发生了,则可认为当时的条件最有利于发生,故应如此选择分布的参数,使发生的概率最大.,24,目的2:求最大熵的实质是求对数似然函数的最大值,25,26,条件随机场,27,随机场,我们不妨拿种地来打个比方。其中有两个概念:位置(site),相空间 (phase space)。“位置”好比是一亩亩农田;“相空间”好比是种的各种庄稼。我们可以给不同的地种上不同的庄稼,这就好比给随机场的每个“位置”,赋予相空间里不同的值。所以,俗气点说,随机场就是在哪块地里种什么庄稼的事情。 简单地讲,随机场可以看成是一组随机变量的集合(这组随机变量对应同一个样本空间)。当给每一个位置中按照某种分布随机赋予相空
11、间的一个值之后,其全体就叫做随机场。 当然,这些随机变量之间可能有依赖关系,一般来说,也只有当这些变量之间有依赖关系的时候,我们将其单独拿出来看成一个随机场才有实际意义。,28,Markov随机场(MRF),具有马尔科夫性质 体现了一个思想:离当前因素比较遥远(这个遥远要根据具体情况自己定义)的因素对当前因素的性质影响不大。首先,一个Markov随机场对应一个无向图。这个无向图上的每一个节点对应一个随机变量,节点之间的边表示节点对应的随机变量之间有概率依赖关系。因此,Markov随机场的结构本质上反应了我们的先验知识哪些变量之间有依赖关系需要考虑,而哪些可以忽略。 现在,如果给定的MRF中每个
12、随机变量下面还有观察值,我们要确定的是给定观察集合下,这个MRF的分布,也就是条件分布,那么这个MRF就称为CRF(Conditional Random Field)。它的条件分布形式完全类似于MRF的分布形式,只不过多了一个观察集合x 最通用角度来看,CRF本质上是给定了观察值集合(observations)的马尔可夫随机场。,29,条件随机场模型是一种无向图模型,它是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分布,而不是在给定当前状态条件下,定义下一个状态的状态分布。即给定观察序列O,求最佳序列S。、这时候,我们称(X,Y)为一个条件随机场,30,势函数,在无向图中,任何
13、一个全连通(任意两个顶点间都有边相连)的子图称为一个团(clique),而称不能被其它团所包含的才为最大团(maxi mal clique)。 尽管在给定每个节点的条件下,分配给该节点一个条件概率是可能的,但条件随机场的无向性很难保证每个节点在给定它的邻接点条件下得到的条件概率和以图中其它节点为条件得到的条件概率一致。因此导致我们不能用条件概率参数化表示联合概率,而要从一组条件独立的原则中找出一系列局部函数的乘积来表示联合概率。选择局部函数时,必须保证能够通过分解联合概率使没有边的两个节点不出现在同一局部函数中。 最简单的局部函数是定义在图结构中的最大团(clique)上的势函数(Potent
14、ial function),并且是严格正实值的函数形式。,31,概率图内容,势函数,为了满足概率公理,则必须引入一个归一化因子Z ,这样可以确保势函数的乘积满足概率公理,且是G中节点所表示的随机变量的联合概率分布。其中C为最大团集合,利用 Hammersley-Clifford 定理,可以得到联合概率公式如下:,32,基于条件独立的概念,条件随机场的无向图结构可以用来把关于 v 的联合分布因式化正的和实值的势函数的乘积,每个势函数操作在一个由G 中顶点组成的随机变量子集上。根据无向图模型条件独立的定义,如果两个顶点间没有边,则意味着这顶点这些顶点对应的随机变量在给定图中其它顶点条件下是条件独立
15、的。 所以在因式化条件独立的随机变量联合概率时,必须确保这些随机变量不在同一个势函数中。满足这个要求的最容易的方法是要求每个势函数操作在一个图G 的最大团上,这些最大团由随机变量相应顶点组成。这确保了没有边的顶点在不同的势函数中,在同一个最大团中的顶点都是有边相连的。,33,链式条件随机场模型的图结构,34,条件随机场概率模型的形式,35,条件随机场概率模型的形式,36,条件随机场概率模型的形式,37,条件随机场概率模型的形式,38,条件随机场模型的参数估计,由最大熵模型可知参数估计的实质是对概率的对数最大似然函数求最值,即运用最优化理论循环迭代,直到函数收敛或达到给定的迭代次数。建立条件随机
16、场模型的主要任务是从训练数据中估计特征的权重,39,条件随机场模型的参数估计,40,条件随机场模型的参数估计,41,通过梯度为零来求解参数并不一定总是得到一个近似解, 因而需要利用一些迭代技术来选择参数, 使对数似然函数最大化。 通常采用的方法是改进的迭代缩放 (Improved Iterative Scaling, IIS)或者基于梯度的方法来计算参数。以上的介绍中,我们给出了对数似然函数L () 梯度的计算表达形式,即经验分布 的数学期望与由模型得到的条件概率 的数学期望的差。而经验分布的数学期望为训练数据集中随机变量(x ,y ) 满足特征约束的个数,模型的条件概率的数学期望的计算实质上
17、是计算条件概率,42,条件概率的矩阵计算,43,条件概率的矩阵计算,44,45,46,47,原理,(1)目标函数:基于最大熵原则进行建模,定义样本条件熵,48,(2)约束条件:以团为单位定义特征 约束特征的样本期望与模型期望相同:另外:,49,(3)求解:运用拉格朗日乘数法,求解出条件随机场的分布形式如下:,50,训练(1)最大似然,通过一组样本,我们希望能够得到CRF对应的分布形式,并且用这种分布形式对测试样本进行分类。也就是测试样本中每个随机变量的取值。在实际应用中,clique-potential主要由用户自己定义的特征函数组成,即用户自己定义一组函数,这些函数被认为是可以用来帮助描述随
18、机变量分布的。而这些特征函数的强弱以及正向、负向是通过训练得到的一组权重来表达的,这样,实际应用中我们需要给出特征函数以及权重的共享关系(不同的特征函数可能共享同一个权重),而clicque-potential本质上成了对应特征函数的线性组合。这些权重就成了CRF的参数。因此,本质上,图的结构是用户通过给出特征函数的定义确定的(例如,只有一维特征函数,对应的图上是没有边的) 还有,CRF的分布成了对数线性形式。看到这个分布形式,我们自然会想到用最大似然准则来进行训练。对其取log之后,会发现,表达式是凸的,也就是具有全局最优解这是很让人振奋的事情。而且,其梯度具有解析解,这样可以用LBFGS来
19、求解极值。,51,训练(2)最大熵 和伪似然,此外,也可以使用最大熵准则进行训练,这样可以用比较成熟的GIS和IIS算法进行训练。由于对数线性的分布形式下,最大熵准则和最大似然准则本质上是一样的,所以两者区别不是很大。此外,由于前面两种训练方法在每一轮迭代时,都需要推断(inference),这样会极大地降低训练速度。因此普遍采用另一种近似的目标函数,称为伪似然。它用每个随机变量的条件分布(就是给定其他所有随件变量的分布)之积来替代原来的似然函数,根据markov性质,这个条件分布只和其邻居有关(Markov Blanket),这样在迭代过程中不需要进行全局的inference,速度会得到极大
20、的提升。我自己的经验表明,当特征函数很多取实数值时,伪似然的效果跟最大似然的差不多,甚至略好于后者。但对于大量二元特征(binary-valued),伪似然的效果就很差了。,52,推断(1),如前所述,训练的过程中我们需要概率推断,分类的时候我们需要找出概率最大的一组解,这都涉及到推断。这个问题本质上属于图模型上的概率推断问题。对于最简单的线性框架的结构,我们可以使用Viterbi算法。如果图结果是树形的,可以采用信念传播(belief propogation),用sum-product得到概率,用max-product得到最优的configuration.但是对于任意图,这些方法就无效了。一
21、种近似的算法,称为loopy-belief propogation,就是在非树形结构上采用信念传播来进行推断,通过循环传播来得到近似解。这么做据说在某些场合下效果不错。但是,在训练时如果采用近似推断的话,可能会导致长时间无法收敛。 基于任意图上的概率推断算法称为junction tree。 这个算法能够保证对任意图进行精确推理。它首先把原来的图进行三角化,在三角化的图上把clique按照某种方式枚举出来作为节点(实际上就是合并特征函数),clicque之间如果有交集,对应的节点之间就有边,这样就得到一个新的图,通过对这个图求最大生成树,就得到了Junction tree. 最后在junctio
22、n tree上进行信念传播可以保证得到精确解。,53,推断(2),本质上这3中算法都属于动态规划的思想。Viterbi的想法最直观,信念传播首先将特征函数都转换为factor,并将其与随机变量组合在一起形成factor-graph, 这样在factor-graph上用动态规划的思想进行推断(即做了一些预处理)。junction tree的做法是通过合并原有的特征函数, 形成一种新的图,在这个图上可以保证动态规划的无后效性,于是可以进行精确推理。(做了更为复杂的预处理) 值得注意的是,junction tree虽然极大地避开了组合爆炸,但由于它要合并特征函数并寻找clique, 用户的特征函数如
23、果定义的维数过大,它得到新的clique也会很大,这样在计算的时候还是会很低效,因为在推断的过程中它需要遍历所有clique中的配置,这和clique的大小是呈指数级的。所以,用户要避免使用维数过高的特征,54,条件随机场(CRF)相对于HMM,MEMM的优势,CRF,HMM(隐马模型),MEMM(最大熵隐马模型)都常用来做序列标注的建模。 隐马模型存在两个假设:输出独立性假设和马尔科夫性假设。一个最大的缺点就是由于其输出独立性假设,它要求序列数据严格相互独立才能保证推到的正确性,导致其不能考虑上下文的特征,限制了特征的选择。 最大熵隐马模型则解决了这一问题,可以任意的选择特征,但由于其在每一
24、节点都要进行归一化,所以只能找到局部的最优值,同时也带来了标记偏见的问题(label bias),即凡是训练语料中未出现的情况全都忽略掉。 条件随机场则很好的解决了这一问题,它使用了一种概率图模型,具有表达长距离依赖性和交叠性特征的能力,能够较好的解决标注偏置的问题。它并不在每一个节点进行归一化,而是所有特征进行全局归一化,因此可以求得全局的最优值。 目前,条件随机场的训练和解码的开源工具还只支持链式的序列,复杂的尚不支持,而且训练时间很长,但效果还可以。,55,条件随机场的应用:词性标注,在基于统计方法的词性标注中,对兼类词和未登录词的 标注是两个需要解决的问题。对于兼类词,可以根据该词的
25、上下文信息来确定该词在句子中的唯一词性。对于未登录 词, 能够获取关于该词的信息相对较少, 可以根据词的上下文 信息以及词的构词特点来确定其词性。 。在基于隐马尔可夫 ( HMM) 模型的词性标注方法中, 通常假设中心词的词性只 与它前面的 n 个词有关, 而与它后面的词无关。这个假设在 词性标注任务中并不符合实际。最大熵模型( ME MM) 能够 充分利用词的上下文信息, 但是存在着“ l a b e l b i a s ” 的弱点,56,57,58,59,60,B模板即前面给出的模板,A模板是B模板除去T特征的模板,61,分别进行开放测试和封闭测试,62,63,64,65,谢 谢!,66,67,