1、串的模式匹配算法,雅礼 朱全民,串的基本操作,串的连接(concat) 求子串(substr- Pascal中的copy函数) 插入函数(insert) 删除函数(delete) 定位函数(index- Pascal中的pos函数),模式匹配算法,模式匹配,基本思想: 从主串 s 的第一个字符起和模式的第一个字符比较之,若相等,则继续逐个比较后序字符,否则从主串的第二个字符起再重新和模式的字符比较之。依次类推,直至模式 t 中的每个字符依次和主串s 中的一个连续字符序列相等,则称匹配成功,否则匹配不成功。,算法框架,FUNC pos (p, s : string) : integer; 求模式
2、串 t 在主串 s 中的位置的定位函数 i:=1; j:=1 指针初始化 WHILE ( i length (p) THEN RETURN (i length (p) ) ELSE RETURN(0) ENDF; 复杂性分析:最坏情况为O(n*m) 例如: 模式串为00000001 主串为: 0000000000000000000000000000000000000000000000000000000000001,KMP(Knuth-Morris-Pratt)算法,KMP的基本原理,由(1)可知, pj-k+1pj-k+2pj-1= s i-k+1si-k+2si-1 - (1) 由(2)可知
3、, p1p2pk-1= s i-k+1si-k+2si-1 - (2) 所以有 p1p2pk-1= pj-k+1pj-k+2pj-1 - (3),怎样求K,KMP示例,KMP算法框架,FUNC KMP(p,t:string):integer; i:=1; j:=1 指针初始化 WHILE ( i length (p) THEN RETURN (i length (p) ) ELSE RETURN(0) ENDF;,怎样求nextj?,首先有,next1=0,设nextj=k,表明: p1p2pk-1= pj-k+1pj-k+2pj-1 (1) 若pk= pj ,则在模式串中有, p1p2pk=
4、 pj-k+1pj-k+2pj 所以, nextj+1=k+1 (2) 若pk pj ,则杂模式串中有 p1p2pk pj-k+1pj-k+2pj 则可将求next函数的问题看成整个模式串既是主串又是模式串的问题,应将模式串滑动到nextk个字符和主串的第j个字符相比较.若nextk=k,且pj=pk,则说明在主串中第j+1个字符之前存在一个长度为k的最长子串,和模式串中从首字符起长度为k的子串相等,即 p1p2pk pj-k+1pj-k+2pj 也就是说nextj+1=k+1=nextk+1,求NEXT算法,Proc get_next( t: string); next为全程变量 j:=1 ; k:=0; next1:=0; While jlength (p) do if (k=0) or (pj = pk) then j:=j+1; k:=k+1;nextj:=k else k:=nextk ENDP,该算法的时间复杂度仅为O( length (p) ),