1、概率上下文无关文法和 概率句法分析,刘洋 2007年7月13日,提纲,概率上下文无关文法 概率句法分析,Probabilistic Context Free Grammars,例子,树概率和句子概率,PCFG的一些特性,PCFG可以用来判断不同分析树的合理度,但有局限性:概率估计基于纯粹的结构因素,没有考虑词汇的共现因素。 自动学习 PCFG 无标注的语料库 有括号标记的语料库 PCFG是一个比n元语言模型描述能力更差的语言模型,因为它没有考虑局部词汇上下文。 PCFG对很短的句子给出过大的概率。,PCFG的基本问题,给定一个语法,如何计算一个句子的概率? 已知语法,如何计算一个句子最可能的分
2、析树? 已知一个句子,如何设定语法的规则概率才能使该句子的概率最大?,内部概率和外部概率,利用内部概率计算句子概率,例子,利用外部概率计算句子概率,确定句子的最佳分析树,内部外部算法,内部外部算法是一个EM训练算法,允许我们在未标注的句子上训练PCFG的参数。 基本假设:一个定义良好的语法可能会生成训练集合中的所有句子,因此需要找到最大化训练数据似然性的语法。 问题: 速度慢 局部极值,算法对初始化参数非常敏感 自动学习的非终结符与语言学分析的非终结符难以相似,提纲,概率上下文无关文法 概率句法分析,概率化句法分析,从输入句子的众多分析结果中选择可能性最大的,宾州树库,短语类别缩写,句法分析模
3、型,PCFG的两个缺陷,缺乏词汇化 结构上下文无关,词汇化的必要性,词汇化标中心词,结构上下文无关的问题,规范派生,依存语法,各种类型的依存语法和对应的短语结构语法实际上是同构的。依存语法是天然词汇化的。依存语法的拥护者认为很多短语结构树过于庞大,都是冗余的,对于一 个句子的理解而言是没有必要的。,评价,一些方法,非词汇化树库语法 从树库中进行PCFG估计 部分无监督学习 面向数据的分析Data-Oriented Parsing 使用派生历史的词汇化模型 基于历史的语法HBG SPATTER 基于依存关系的模型 Collins 1996 Collins 1997,一些可免费使用的Parser,
4、Michael Collins s Parser http:/people.csail.mit.edu/mcollins/code.html English Dan Bikel s Parser http:/www.cis.upenn.edu/dbikel/software.html#stat-parser English / Chinese / Arabic Stanford Parser http:/www-nlp.stanford.edu/software/lex-parser.shtml English / Chinese / German David Chiangs Parser h
5、ttp:/www.isi.edu/chiang/ English / Chinese,Parsing on ACL 2007,Fast Unsupervised Incremental Parsing K-best Spanning Tree Parsing Is the End of Supervised Parsing in Sight? An Ensemble Method for Selection of High Quality Parses Beyond Projectivity: Multilingual Evaluation of Constraints and Measure
6、s Self-Training for Enhancement and Domain Adaptation of Statistical Parsers Trained on Small Datasets HPSG Parsing with Shallow Dependency Constraints Constituent Parsing with Incremental Sigmoid Belief Networks Pipeline Iteration Learning Synchronous Grammars for Semantic Parsing with Lambda Calculus Generalizing Tree Transformation for Inductive Dependency Parsing,谢谢!,