1、第3章 语法分析,3.1 文法和语言 3.2 推导与语法树 3.3 自上而下分析方法 3.4 自下而上分析方法 3.5 LR分析法,3.1 文 法 和 语 言,文法是程序语言的生成系统,而自动机则是程序语言的识别系统;用文法可以精确地定义一个语言,并依据该文法构造出识别这个语言的自动机。因此,文法对程序语言和编译程序的构造具有重要意义,如程序语言的词法可用正规文法描述,语法可用上下文无关文法描述,而语义则要借助于上下文有关文法描述。,3.1.1 文法和语言的概念 1语言 通常我们用表示字母表,字母表中的每个元素称为字符或符号。不同语言的字母表可能是不同的,程序语言的字母表通常是ASCII字符集
2、。由字母表中的字符所组成的有穷系列称为上的字符串或字,字母表上的所有字符串(包括空串)组成的集合用*表示。那么,对字母表来说,*上的任意一个子集都称为上的一个语言,记为L(L*),该语言的每一个字符串称为语言L的一个语句或句子。,2文法文法通常表示成四元组G=(VT,VN,S,),其中:(1)VT为终结符号集,这是一个非空有限集,它的每个元素称为终结符号;(2)VN为非终结符集,它也是一个非空有限集,其每个元素称为非终结符号,且有VTVN=;(3)S为一文法开始符,是一个特殊的非终结符号,即SVN;,(4)是产生式的非空有限集,其中每个产生式(或称规则)是一序偶(,),通常写作 或:= 读作“
3、是”或“定义为”。在此,为产生式的左部,而为产生式的右部,、是由终结符和非终结符组成的符号串,(VTVN)+且至少有一个非终结符,而(VTVN)*。,终结符号是指语言不可再分的基本符号,通常是一个语言的字母表;终结符代表了语法的最小元素,是一种个体记号。非终结符号也称语法变量,它代表语法实体或语法范畴;非终结符代表一个一定的语法概念,因此,一个非终结符是一个类、一个集合。例如,在程序语言中,可以把变量、常数、“+”、“*”等看作是终结符,而像“算术表达式”这个非终结符则代表着一定算术式组成的类,如i*(i+i)、i+i+i等;也即每个非终结符代表着由一些终结符和非终结符且满足一定规则的符号串组
4、成的集合。,文法开始符号是一个特殊的非终结符,它代表文法所定义的语言中我们最终感兴趣的语法实体,即语言的目标,而其它语法实体只是构造语言目标的中间变量;如表达式文法的语言目标是表达式,而程序语言的目标通常为程序。 产生式(也称产生规则或规则)是定义语法实体的一种书写规则。一个语法实体的相关规则可能不止一个。例如,有: P1 P2 Pn,为书写方便,可将这些有相同左部的产生式合并为一个,即缩写成 P12n 其中,每个i(i=1,2,n)称为P的一个候选式,直竖“”读为“或”,它与“”一样是用来描述文法的元语言符号(即不属于的字符)。,例3.1试构造产生标识符的文法。 解答首先,标识符是以字母开头
5、的字母数字串,我们用L表示“字母”类非终结符,用D表示“数字”类非终结符,而用T表示“字母或数字”类非终结符,则有: Labz D019 TLD 其次,如果用S表示“字母数字串”类,则T是一字母或数字,ST也是字母数字串,即有 STST 其中,产生式STST是一种左递归形式,由它可以产生一串T。,最后,作为“标识符”的非终结符I,它或者是一单个字母,或者为一字母后跟字母数字串,即 ILLS 因此,产生标识符的文法GI为:G=(a,b,z,0,9,I,S,T,L,D,I,) :ILLS STST TLD,Labz D019 例3.2写一文法,使其语言是奇数集合,但不允许出现以0打头的奇数。 解答
6、根据题意,我们可以将奇数划分为如图31所示的三个部分,即最高位允许出现19,用非终结符B表示;中间部分可以出现任意多位数字09,每一位用非终结符D表示;最低位只允许出现1、3、5、7、9等奇数,用A表示。,图31奇数划分示意,由于中间部分可出现任意位,所以另引入了一个非终结符M,它包括最高位和中间位部分。假定开始符为N,则可得到文法GN为: G=(0,1,9,N,A,M,B,D,N,) :NAMA /*一位数字多位数字*/ MBMD /*仅两位数字(无中间位)多于两位数字*/ A13579 B123456789 D0B,3文法产生的语言 设文法G=(VT,VN,S,)且、(VTVN)*,如果存
7、在产生式A(VTVN)*),则称A可直接推出,即 A 其中“”表示直接推导出,是应用产生规则进行推导的记号。注意“”与“”不同,“”是产生式中的定义记号。直接推导是对文法符号串A中的非终结符A用相应的产生式A的右部来替换,从而得到。我们给出推导的说明如下:,(1)如果1可直接推出2,2可直接推出3,n-1可直接推出n,即存在一个自1至n的推导序列:123n(n0),则我们称1可推导出n,记为1n,它表示从1出发经过一步或若干步可推导出n。 (2)如果记11,则1n表示从1出发,经过0步或若干步可推导出n;也即1n意味着或者1=n,或者1n。 例如,对下面的文法GE: EE+EE*E(E)i(3
8、.1),其中,惟一的非终结符E可以看成是代表一类算术表达式。我们可以从E出发进行一系列的推导,如表达式i+i*i的推导如下: EE+EE+E*E E+E*iE+i*ii+i*i,假定GS是一个文法,S是它的开始符号,如果S,(VTVN)*,则称是文法GS的一个句型;如果VT*,则称是文法GS的一个句子。仅含终结符的句型是一个句子。 由定义可知,开始符S本身只能是文法的一个句型而不可能是一个句子;此外,上面推导出的i+i*i是文法GE的一个句子(当然也是一个句型),而E+E、E+E*E、E+E*i和E+i*i都是文法GE的句型。 对于文法GS,它所产生的句子的全体称为由文法GS产生的语言,记为L
9、G,即有 L(G)=S且VT*,3.1.2形式语言分类 语言学家NoamChomsky于1956年首先建立了形式语言的描述,定义了四类文法及相应的形式语言,并分别与相应的识别系统相联系,它对程序语言的设计、编译方法、计算复杂性等方面都产生了重大影响。 10型文法与0型语言(对应图灵机) 如果文法G的每一个产生式具有下列形式: ,其中,V*VNV*(注:V=VNVT),即至少含有一个非终结符;V*;则称文法G为0型文法或短语文法,记为PSG。0型文法相应的语言称为0型语言或称递归可枚举集,它的识别系统是图灵(Turing)机。,21型文法与1型语言(对应线性界限自动机,自然语言) 文法G的每一个
10、产生式,均在0型文法的基础上增加了字符长度上满足的限制,则称文法G为1型文法或上下文有关文法,记为CSG。1型文法相应的语言称为1型语言或上下文有关语言,它的识别系统是线性界限自动机。 1型文法的另一种定义方法是文法G的每一个产生式具有下列形式: A,其中,、V*,AVN,V+;显然它满足前述定义的长度限制,但它更明确地表达了上下文有关的特性,即A必须在、的上下文环境中才能被所替换。,32型文法与2型语言(对应下推自动机,程序设计语言) 文法G的每一个产生式具有下列形式: A 其中,AVN,V*,则称文法G为2型文法或上下文无关文法,记为CFG。2型文法相应的语言称为2型语言或上下文无关语言,
11、它的识别系统是下推自动机。,43型文法与3型语言(对应有限自动机) 文法G的每个产生式具有下列形式: Aa或AaB 其中,A、BVN,aVT*,则文法G称为3型文法、正规文法或右线性文法,记为RG。3型文法相应的语言为3型语言或正规语言,它的识别系统是有限自动机。3型文法还可以呈左线性形式: Aa或ABa,5四类文法的关系与区别 由四类文法的定义可知,从0型文法到3型文法逐渐增加限制。13型文法都属于0型文法,2、3型文法均属于1型文法,3型文法属于2型文法。四类文法的区别如下: (1)1型文法中不允许有形如“A”的产生式存在,而2、3型文法则允许形如“A”的产生式存在; (2)0、1型文法的
12、产生式左部存在含有终结符号的符号串或两个以上的非终结符,而2型和3型文法的产生式左部只允许是单个的非终结符号。,例3.3试判断下列产生式集所对应的文法和产生的语言:(1) SACaB(2) SaSBC(3) SAc(4) SaSCaaaC SaBC SSc SaACBDB CBDB Aab AbACBE DBDC AaAb AbBaDDa DCBC BcBADAC aBabBcaEEa bBbbAE bCbccCcc,解答 由四类文法的定义与区别可知,14分别为03型文法。(1) 该0型文法产生的0型语言为L0(G)=a2nn0。例如:当n=2时,句子a22= aaaa ,(2) 该1型文法产
13、生的1型语言为L1(G)=anbncnn1。例如,当n=2时,句子a2b2c2=aabbcc是通过下列推导得到的:,(3) 该2型文法产生的2型语言为L2(G)=anbncmm、n1。例如当n=2、m=3时,句子a2 b2 c3=aabbccc是通过下列推导得到的:,(4) 该3型文法产生的3型语言为L3(G)=ambnckm、n、k1。例如当m=2、n=3、k=4时,句子a2b3c4=aabbbcccc是通过下列推导得到的:,由例3.3可知:anbncnn1 anbncmm、n1 ambnckm、n、k1,这说明对文法规则定义形式的限制虽然加强了,但相应的语言反而更大了。因此,不能主观认定文
14、法限制越大则语言越小,也即下述结论是不成立的: 3型语言 2型语言 1型语言 0型语言 在编译方法中,通常用3型文法来描述高级程序语言的词法部分,然后用有限自动机FA来识别高级语言的单词;利用2型文法来描述高级语言的语法部分,然后用下推自动机PDA来识别高级语言的各种语法成分。,例3.4 给出字母表=a,b上的同时只有奇数个a和奇数个b的所有字符串集合的正规文法。解答 为了构造字母表=a,b上同时只有奇数个a和奇数个b的所有字符串的正规表达式,我们画出如图32所示的DFA,即由开始符S出发,经过奇数个a到达状态A,或经过奇数个b到达状态B。再由状态A出发,经过奇数个b到达状态C(终态);同样,
15、由状态B出发,经过奇数个a到达终态C。,图32 例3.4的DFA,由图32可直接得到正规文法GS如下:GS: SaAbB AaSbCb BbSaCaCbAaB,3.1.3 正规表达式与上下文无关文法1正规表达式到上下文无关文法的转换正规表达式所描述的语言结构均可以用上下文无关文法描述,反之则不一定。由正规表达式构造上下文无关文法的一种方法如下:(1) 构造正规表达式的NFA;(2) 若0为初始状态,则A0为开始符号;(3) 如果存在映射关系f(i, a)= j,则定义产生式Ai aAj;(4) 如果存在映射关系f(i, )= j,则定义产生式Ai Aj;(5) 若i为终态,则定义产生式Ai 。
16、,例3.5 用上下文无关文法描述正规表达式(ab)*abb。解答 首先构造识别正规表达式(ab)*abb的NFA M如图33所示。由构造上下文无关文法的方法得到上下文无关文法GA0如下:GA0: A0aA0bA0aA1A1bA2A2bA3A3,事实上,由正规表达式构造上下文无关文法还可以采用另一种方法,即通过分析正规表达式的特性凭经验直接构造。如可把(ab)*abb看作由(ab)*和abb两部分组成,第一部分是由0个或若干个a和b组成的字符串,而第二部分则仅由abb字符串组成,由此得到上下文无关文法GA0如下:GA0: AHTHaHbHTabb,图33 例3.5的NFA M,2正规表达式与上下
17、文无关文法描述的对象上下文无关文法既可以描述程序语言的语法,又可以描述程序语言的词法,但基于下述原因,应采用正规表达式描述词法:(1) 词法规则简单,采用正规表达式已足以描述;(2) 正规表达式的表示比上下文无关文法更加简洁、直观和易于理解;(3) 有限自动机的构造比下推自动机简单且分析效率高。,贯穿词法分析和语法分析始终如一的思想是:语言的描述和语言的识别是表示一个语言的两个不同的侧面,二者缺一不可。用正规表达式和上下文无关文法描述语言时的识别方法(即自动机)不同。通常,正规表达式适合于描述线性结构,如标识符、关键字和注释等;而上下文无关文法则适合于描述具有嵌套(层次)性质的非线性结构,如不
18、同结构的语句if-else、while等。,3.2 推导与语法树,3.2.1 推导与短语1规范推导在3.1.1节中,所给句子i+i*i推导序列中的每一步推导都是对句型中的最右非终结符用相应产生式的右部进行替换,这样的推导称为最右推导。如果每一步推导都是对句型中的最左非终结符用相应产生式的右部进行替换,则称为最左推导。例如句子i+i*i按文法(3.1)的最左推导是,从一个句型到另一个句型的推导过程并不是惟一的,为了对句子的结构进行确定性分析,我们往往只考虑最左推导或最右推导,并且称最右推导为规范推导。规范推导的逆过程便是规范归约。,2短语设是文法GS的一个句型,如果有: S A 且 A 则称是句
19、型关于非终结符A的一个短语,或称是的一个短语。特别是有A产生式时,为句型的一个直接短语或简单短语。短语的两个条件缺一不可。仅有A 未必意味着就是句型的一个短语,还需要有S A这一条件加以限制;也即短语属于该句型的组成部分,不能破坏这种句型结构的限制。,3句柄一个句型的最左直接短语称为该句型的句柄。注意,一个句型的直接短语可能不只一个,但最左直接短语则是惟一的。如对S A 来说,将句型中的句柄用产生式的左部符号代替便得到新句型A,这是一次规范归约,恰好与规范推导相反。,4素短语含有终结符的短语,如果它不存在也具有同样性质的真子串,则该短语为素短语。例如,在EE+E*i中,i、E*i和E+E*i是
20、句型E+E*i的三个短语;其中,i为素短语;E*i虽为短语且含有终结符,但它的真子串i是素短语,故E*i不是素短语;同样E+E*i也不是素短语。,3.2.2 语法树与二义性1语法树对程序语言来说,有两个问题需要解决:其一是判别程序在语法上是否正确;其二是句子的识别或分析。在编译方法中,为了便于识别或分析句子而引入了语法树这一重要的辅助工具。语法树以图示化的形式把句子分解成各个组成部分来描述或分析句子的语法结构,这种图示化的表示与所定义的文法规则完全一致,但更为直观和完整。,对文法G=(VT,VN,S,) ,满足下列条件的树称为GS的语法树:(1) 每个结点用GS的一个终结符或非终结符标记;(2
21、) 根结点用文法开始符S标记;(3) 内部结点(指非树叶结点)一定是非终结符,如果某内部结点A有n个分支,它的所有子结点从左至右依次标记为x1、x2、xn,则Ax1x2xn一定是文法GS的一条产生式;(4) 如果某结点标记为,则它必为叶结点且是其父结点的惟一子结点。,相应于一个句型的语法树是以文法的开始符S作为根结点的,并随着推导逐步展开;当某个非终结符被它对应的产生式右部的某个候选式所替换时,这个非终结符所对应的结点就产生出下一代新结点,即候选式中从左至右的每一个符号都依次顺序对应一个新结点,且每个新结点与其父结点之间都有一条连线(树枝)。在一棵语法树生长过程中的任何时刻,所有那些没有后代的
22、树叶结点自左至右排列起来就是一个句型。,图3-4 句子i+i*i的语法树,例如,与文法(3.1)的句子i+i*i相应的语法树如图34所示。在构造语法树时可以发现,一个句型的最左推导及最右推导只是决定先生长左子树还是先生长右子树,句型推导结束时相应的语法树也随之完成,这时已不能看出是先生长左子树还是先生长右子树,所呈现的只是已经长成的这个句子或句型的语法树,这与使用文法规则进行推导是有差异的,即使用文法规则的推导过程是有先后之分的。,因此,一棵语法树表示了一个句型种种可能的(但未必是所有的见下面文法的二义性)不同推导过程,包括最左(最右)推导。如果我们坚持使用最左(或最右)推导,那么一棵语法树就
23、完全等价于一个最左(或最右)推导,这种等价性也包括语法树的每一步生长和推导的每一步展开的这种完全一致性。,2子树和短语语法树的某个结点连同它的所有后代组成了一棵子树,只含有单层分枝的子树称为简单子树。子树与短语的关系十分密切,根据子树的概念,句型的短语、直接短语、句柄和素短语的直观解释如下:(1) 短语:子树的末端结点(即树叶)组成的符号串是相对于子树根的短语;(2) 直接短语:简单子树的末端结点组成的符号串是相对于简单子树根的直接短语;,(3) 句柄:最左简单子树的末端结点组成的符号串为句柄;(4) 素短语:子树的末端结点组成的符号串含终结符,且在该子树中不再有包含含有终结符的更小子树。显然
24、,从语法树出发寻找短语、直接短语、句柄和素短语要直观得多。此外,要注意的是子树末端结点组成的符号串是指由该子树根开始向下生长的所有末端结点(即树叶),该子树的部分末端结点并不是该子树的短语。,图35 E+E*i的语法树,对图35所示的关于句型E+E*i的语法树来说,它有3棵子树,即3个短语,分别为i、E*i和E+E*i;而直接短语、句柄和素短语均为i。3文法的二义性文法GS的一个句子如果能找到两种不同的最左推导(或最右推导),或者存在两棵不同的语法树,则称这个句子是二义性的。一个文法如果包含二义性的句子,则这个文法是二义文法,否则是无二义文法。例如,对文法(3.1),句子i+i*i存在着两种最
25、左推导或最右推导,所形成的两棵不同的语法树如图36所示。,图36 句子i+i*i的两棵不同语法树,再如,条件语句的文法GS为:GS: Sif B SSif B S else SSA /*A指其它语句*/其中,VN = B,S,A,VT = if , else,则句型if B if B S else S所对应的两棵不同语法树见图37。因此,文法GS是二义性文法。,图37 句型 if B if B S else S 的两棵不同语法树,4文法二义性的消除一个文法是二义性的,并不说明该文法所描述的语言也是二义性的。也即,对于一个二义性文法GS,如果能找到一个非二义性文法GS,使得L(G)=L(G),则
26、该二义性文法的二义性是可以消除的。如果找不到这样的GS,则二义性文法描述的语言为先天二义性的。文法二义性消除的方法如下:(1) 不改变文法中原有的语法规则,仅加进一些语法的非形式规定。如对文法(3.1),,不改变已有的四条规则(即四个产生式),仅加进运算符的优先顺序和结合规则,即*优先于+,且*、+都服从左结合。这样,对文法(3.1)中的句子i+i*i就只有如图36(a)的惟一一棵语法树。,(2) 构造一个等价的无二义性文法,即把排除二义性的规则合并到原有文法中,改写原有的文法。例如,我们可以将文法(3.1)改写为无二义性的文法G E如下: GE: EE+TTTT*FFF(E)i此时,句子i+
27、i*i就只有如图38所示的惟一一棵语法树。,图38 句子i+i*i的语法树,例3.6 试将如下的二义性文法GS的二义性消除: GS: Sif b Sif b S else SA解答 消除GS的二义性可采用如下两种方法:(1) 不改变已有规则,仅加进一项非形式的语法规定:else与离它最近的if匹配(即最近匹配原则),这样,文法GS的句子if b if b A else A只对应惟一的一棵语法树(见图39)。,(2) 改写文法GS为GS: SS1S2S1if b S1 else S1AS2if b Sif b S1 else S2这是因为引起二义性的原因是if-else语句的if后可以是任意if
28、型语句,所以改写文法时规定if和else之间只能是if-else语句或其它语句。这样,改写后文法GS的句子if b if b A else A只对应惟一的一棵语法树(如图310所示)。,图39 复合if语句的语法树,图310 GS的复合if语句的语法树,我们总希望一个文法是无二义性的,这样,句子的分析可以按惟一确定的方式进行。但是,文法的二义性是不可判定的,即不存在一种算法,能够在有限步内判定一个文法是否为二义性的。有时候,二义性文法也可带来一定的好处,如语法分析中二义性文法的应用。,3.3 自上而下分析方法,自上而下分析就是从文法的开始符出发并寻找出这样一个推导序列:推导出的句子恰为输入符号
29、串;或者说,能否从根结点出发向下生长出一棵语法树,其叶结点组成的句子恰为输入符号串。显然,语法树的每一步生长(每一步推导)都以能否与输入符号串匹配为准,如果最终句子得到识别,则证明输入符号串为该文法的一个句子;否则,输入符号串不是该文法的句子。,3.3.1 递归下降分析法递归下降分析法是一种自上而下的分析方法,文法的每个非终结符对应一个递归过程。分析过程就是从文法开始符出发执行一组递归过程,这样向下推导直到推出句子;或者说从根结点出发,自上而下为输入串寻找一个最左匹配序列,建立一棵语法树。1自上而下分析存在的不确定性假定文法GS为: SxAy Aaba,若输入串为xay,则其分析过程如下:(1
30、) 首先建立根结点S。(2) 文法关于S的产生式只有一个,也即由S生长的语法树如图311(a)所示,它的第一个终结符x与输入串待分析的字符x匹配。此时,下一个待分析的字符为a,期待着与语法树中在x右侧且与x相邻的叶结点A匹配。(3) 非终结符A有两个候选式,先选用第一个候选式生长的语法树(如图311(b)所示);这时语法树的第二个叶结点a恰与待分析的字符a匹配。,(4) 输入串中下一个待分析的字符为y,它期待与第三个叶结点b匹配,但匹配时发现这两个字符是不同的,即匹配失败,这是因为生成A的子树时所选用的是其第一个候选式。(5) 因不匹配而将A所生成的这棵子树注销,即把匹配指针回退到输入串的第二
31、个字符a,也就是恢复与A匹配时的现场,即(3)之前。(6) 此时A选用第二个候选式并生长语法树如图311(c)所示,这时第二个叶结点a与输入串的第二个叶结点a匹配。,图311 试探分析对应的语法树,(7) 此时输入串的下一个待分析字符指向y,而语法树的下一个未匹配的叶结点也为y,两者恰好匹配。因此,图311(c)的语法树即为输入串xay的语法树。,显然,这种自上而下分析是一个不断试探的过程;也即,在分析过程中,如果出现多个产生式(即候选式)可供选择,则逐一试探每一候选式进行匹配,每当一次试探失败,就选取下一候选式再进行试探;此时,必须回溯到这一次试探的初始现场,包括注销已生长的子树及将匹配指针
32、调回到失败前的状态。这种带回溯的自上而下分析方法实际上是一种穷举的试探方法,其分析效率极低,在实用的编译程序中很少使用。,2确定的自上而下分析为了实现确定的(即无回溯的)自上而下分析,则要求文法满足下述两个条件:(1) 文法不含左递归,即不存在这样的非终结符号A:有AA存在或者有AA;(2) 无回溯,对文法的任一非终结符号,当其产生式右部有多个候选式可供选择时,各候选式所推出的终结符号串的首字符集合要两两不相交。,左递归是程序语言的语法规则中并不少见的形式,例如前述消除了二义性的算术表达式文法的一个规则EE+T /* 简单表达式简单表达式+项 */ 如果对该左递归文法采用自上而下分析法,即首先
33、以“E+T”中的E为目标对“E+T”进行试探,进而又以其中的E为目标再对选择“E+T”进行试探;也即E+T E+T+T E+T+T+T ,这种左递归的文法使自上而下分析工作陷入无限循环。也就是说,当试图用E去匹配输入符号串时会发现:在没有吃进任何输入符号的情况下,又得重新要求E去进行新的匹配。因此,使用自上而下分析法首先要消除文法的左递归性。,对于回溯,由上述不确定的自上而下分析示例可知,由于回溯的存在,可能在已经做了大量的语法分析工作之后,才发现走了一大段错路而必须回头,就要把已经做的一大堆语义工作(指中间代码产生工作和各种表格的簿记工作)推倒重来。回溯使得自上而下语法分析只具有理论意义而无
34、实际使用的价值。因此,要使自上而下语法分析具有实用性就要消除回溯。,3消除左递归直接消除见诸于产生式中的左递归比较容易,其方法是引入一个新的非终结符,把含有左递归的产生式改为右递归。设关于非终结符A的直接左递归的产生式形如 AA其中,、是任意的符号串且不以A开头。这时,可将A的产生式改写为如下的右递归形式:,改写后的形式与原形式等价,即从A推出的符号串的集合相同。例如,含有直接左递归的表达式文法GE为: GE: EE+TTTT*FFF(E)i,经过消去直接左递归后得到文法GE为: GE: ETEE+TETFTT*FTF(E) i (3.2),一般情况下,设文法中关于A的产生式为 AA1A2Am
35、12n其中,每个都不等于且每个都不以A开头,则消除A的直接左递归性就是将其改写为:,例如,对产生式EE+TETT,消除直接左递归后为: ETE E+TETE,如何消除一个文法的一切左递归呢?如果一个文法不含回路(形如AA的推导),且产生式的右部也不含的候选式,那么,下述算法将消除文法的左递归:(1) 将文法GS的所有非终结符按一给定的顺序排列:A1、A2、An ;(2) 执行下述循环语句将间接左递归改为直接左递归:for (i=1;i=n;i+)for (j=1;j=i1;j+)把一个形如:,的产生式改写为:Ai12k12n ; 按消除直接左递归的方法消除Ai的直接左递归;(3) 化简由(2)
36、所得的文法,即去掉那些从开始符号S出发,在推导中无法出现的非终结符的产生式(去掉多余产生式)。,例如,将文法(3.3)的非终结符排序为R、Q、S。对R来说,它不存在直接左递归;当把R代入到Q的有关候选后得到改变后的Q产生式为 QSababb现在的Q同样不含直接左递归,再把它代入到S的有关候选后得到改变的S产生式为 SSabcabcbcc,经过消除了S的直接左递归后,即得到了整个文法GS为: GS: SabcSbcScSSabcSQSababbRSaa显然,关于Q和R的产生式已为多余,因此化简后的最终文法GS为: GS: Sabc Sbc Sc SSabc S (3.4),实际上,我们也可以用数
37、学中的分配律来消除文法中的左递归。对文法(3.3),首先将R的产生式代入到Q的产生式中并按分配律展开(注:“(”和“)”为元语言符号)得 Q(Saa)bb 展开后: QSababb再将改变后Q的产生式代入到S的产生式中并按分配律展开得 S(Sababb)cc 展开后: SSabcabcbcc在消除S的直接左递归后同样得到文法(3.4)。,4消除回溯回溯发生的原因在于候选式存在公共的左因子,如产生式A如下: A12此时,如果输入串待分析的字符串前缀为,则选用哪个候选式以寻求与输入串匹配就难以确定。倘若候选式不含公共左因子,则推导出的首字符能与输入串匹配的那个候选式便是惟一的匹配。在文法GS中的每
38、个非终结符相应的产生式右部其候选式均不含公共左因子的情况下,语法分析的匹配过程都是惟一匹配,无需试探;这时若匹配失败,则意味着输入串不是句子。,一般情况下,设文法中关于A的产生式为A12ii+1j (3.5)那么,可以把这些产生式改写为:,(3.6),经过反复提取左因子,就能把每个非终结符(包括新引进者)的所有候选首符集变为两两不相交(即不含公共左因子)。我们也可以用数学中提取公共因子的办法来提取公共左因子。如对式(3.5)提取公共(左)因子后得A(12 i)i+1j (注:“(”与“)”为元语言符号)将产生式中由“(”和“)”括起的部分以非终结符A命名则得到式(3.6)。,5递归下降分析器在
39、不含左递归和每个非终结符的所有候选终结首符集都两两不相交的条件下,我们就可能构造一个不带回溯的自上而下的分析程序,这个分析程序是由一组递归过程(或函数)组成的,每个过程(或函数)对应文法的一个非终结符。这样的一个分析程序称为递归下降分析器。,例如,文法(3.2)对应的递归下降分析器如下:void match (token t)if (lookahead = t)lookahead = nexttoken;else error ( );void E( )T( );E( );,void E( )if (lookahead = +)match (+);T( );E( );,void T( )F( )
40、;T( );void T( )if (lookahead =*)match (*);F( );,T( );void F( )if (lookahead = i)match (i);else if (lookahead =()match ();E ( );,if (lookahead =)match ();else error ( );else error ( ); 我们知道,关于E的产生式是 E+TE,即E只有两个候选;第一个候选的开头终结符为+,第二个候选为。这就是说,当E面临输入符号“+”时就令第一个候选进入工作,而当面临任何其它符号时,E就自动认为获得了匹配。递归函数E就是根据这一原则设
41、计的。例如,我们将递归函数的调用以栈的形式模拟来分析输入串 # i1*(i2+i3)# 的语法分析过程;在此,“#”为输入串i1*( i2+i3)的分隔符。进行语法分析时,首先将“#”和文法开始符E压入栈中,当语法分析进行到栈中仅剩“#”而输入串扫描指针已指向输入串尾部的“#”时,则语法分析成功,分析过程如图312所示。,图312 输入串i1*( i2+i3)的语法分析,我们还可以用另一种表示法得到递归下降分析器,即将文法的每一个非终结符用VTVN上的一个正规表达式来定义,然后将其用状态转换图表示,并借助于这种转换图来得到递归下降分析器。文法(3.2)的每个非终结符可由下面的正规表达式定义:
42、ET+T TF*F Fi( E ) (3.7),在此,“”表示闭包运算*,且文法(3.2)与文法(3.7)是等价的。根据文法(3.7)可得到图313所示的一组描述非终结符E、T和F的状态转换图。,图313 非终结符对应的转换图,图313中三个转换图的工作是以一种相互递归的方式进行的;因此,每个转换图的作用就如同一个递归过程(函数)。这时,前面的递归下降分析器程序可删除函数E( )和T( ),而将E( )和T( )改为:,void E( ) T( ); while (lookahead = +) match (+); T( ); void T( ) F( );,while (lookahead
43、= *)match (*);F( ); ,3.3.2 LL(1)分析法LL(1)分析法又称预测分析法,是一种不带回溯的非递归自上而下分析法。LL(1)的含义是:第一个L表明自上而下分析是从左至右扫描输入串的;第二个L表明分析过程中将用最左推导;“1”表明只需向右查看一个符号就可决定如何推导(即可知用哪个产生式进行推导)。类似地,也可以有LL(k)文法,也就是向前查看k个符号才能确定选用哪个产生式,不过LL(k)(k1)在实际中极少使用。,1表驱动的LL(1)分析器 LL(1)分析法的基本思想是根据输入串的当前输入符号来惟一确定选用某条规则(产生式)来进行推导;当这个输入符号与推导的第一个符号相
44、同时,再取输入串的下一个符号,继续确定下一个推导应选的规则;如此下去,直到推导出被分析的输入串为止。一个LL(1)分析器由一张LL(1)分析表(也称预测分析表)、一个先进后出分析栈和一个控制程序(表驱动程序)组成,如图314所示。,对图314所示的LL(1)分析器说明如下:(1) 输入串是待分析的符号串,它以界符“#”作为结束标志。(注:#VT但不是文法符号,是由分析程序自动添加的。)(2) 分析栈中存放分析过程中的文法符号。分析开始时栈底先放入一个“#”,然后再压入文法的开始符号;当分析栈中仅剩“#”,输入串指针也指向串尾的“#”时,分析成功。,(3) 分析表用一个矩阵(或二维数组)M表示,
45、它概括了相应文法的全部信息。矩阵的每一行与文法的一个非终结符相关联,而每一列与文法的一个终结符或界符“#”相关联。对MA,a来说,A为非终结符,而a为终结符或“#”。分析表元素MA,a中的内容为一条关于A的产生式,表明当A面临输入符号a时当前推导所应采用的候选式;当元素内容为空白(空白表示“出错标志”)时,则表明A不应该面临这个输入符号a,即输入串含有语法错误。,图314 LL(1)分析器,(4) 控制程序根据分析栈顶符号x和当前输入符号a来决定分析器的动作: 若xa“#”,则分析成功,分析器停止工作。 若xa“#”,即栈顶符号x与当前扫描的输入符号a匹配;则将x从栈顶弹出,输入指针指向下一个
46、输入符号,继续对下一个字符进行分析。 若x为一非终结符A,则查MA,a:,i若MA,a中为一个A的产生式,则将A自栈顶弹出,并将MA,a中的产生式右部符号串按逆序逐一压入栈中;如果MA,a中的产生式为A,则只将A自栈顶弹出。ii若MA,a中为空,则发现语法错误,调用出错处理程序进行处理。控制程序描述如下:将“#”和文法开始符依次压入栈中;,把第一个输入符号读入a; do 把栈顶符号弹出并放入x中; if(xVT) if(xa) 将下一输入符号读入a; else error( );, else if(Mx,a“xy1y2yk”) 按逆序依次把yk、yk1、y1压入栈中; 输出“xy1y2yk”; else error( ); while(x!=“#”) 例3.7 一文法的LL(1)分析表如表3.1所示,试给出输入串aadl的分析过程。,表3.1 例3.7的LL(1)分析表,表3.2 输入串aadl的分析过程,