1、第四章 串的模式匹配算法,本讲内容,4.3 串的模式匹配算法,1.朴素的模式匹配算法,2.KMP算法,1.模式串的next和nextval函数值 2.手工模拟KMP算法的执行过程,采用串的定长顺序存储结构,讨论不依赖于其他串操作的模式匹配算法(子串定位操作)。,朴素的模式匹配算法,Index(S,T,pos)算法思想,从主串S的第pos个字符起和模式T的第一个字符比较,若相等,则继续逐个比较后续字符;否则,从主串的下一个字符起再重新和模式T的字符比较。依次类推,直至模式T中的每个字符依次和主串S中的一个连续的字符序列相等,则称匹配成功,否则称匹配失败。匹配成功时,返回和模式T中第一个字符相等的
2、字符在主串S中的位置;匹配失败时,返回零。,朴素的模式匹配算法,S 串,pos,i,T 串,j,i,j,i,j,i,j,i,j,T 串,朴素的模式匹配,主串 S=ababcabcacbab,模式串T= abcac,pos=1,i=3 第一趟匹配: a b a b c a b c a c b a ba b cj=3i=2 第二趟匹配: a b a b c a b c a c b a ba j=1 i=7 第三趟匹配: a b a b c a b c a c b a ba b c a c j=5,第四趟匹配: a b a b c a b c a c b a b a j=1 i=5 第五趟匹配: a
3、 b a b c a b c a c b a b a j=1 i=11 第六趟匹配: a b a b c a b c a c b a b a b c a c(成功) j=6,i=4,int Index(SString S, SString T, int pos) / 返回子串T在主串S中第pos个字符之后的位置。若不存在,/ 则函数值为0。其中,T非空,1posStrLength(S)。i = pos; j = 1;while (i T0) return i - T0;else return 0; / Index,i- j +2;,算法分析,2.算法最坏情况下的时间复杂度为O(n*m),1.如
4、果主串中可能存在多个和模式串“部分匹配”的子串,因而引起主串中指针i的多次回溯。,上面的模式匹配只需三趟,主串S=ababcabcacbab,模式串T= abcac,i=3 第一趟匹配: a b a b c a b c a c b a ba b cj=3 (next3=1)i=3 第二趟匹配: a b a b c a b c a c b a b a b c a c j=5 (next5=2) i=7 第三趟匹配: a b a b c a b c a c b a b(a)b c a c j=2 怎么得来的呢?这就是KMP算法。,KMP算法,KMPKnuth, Morris, Pratt三人发明,
5、特点: 无需回溯; 在O(nm)的时间量级上完成串的模式匹配操作;,KMP算法,假设主串S为s1s2s3sn,模式串T为p1p2pm,若si与pj发生失配,则有: si-j+1si-1=p1pj-1 (1),由(1),若kj,则有: si-k+1si-1= pj-k+1pj-1 (3),若主串不回溯,设此时将与模式串中第k(kj)个字符继续比较,则有: si-k+1si-1= p1pk-1 (2),由(2)和(3),则下式成立: p1pk-1 =pj-k+1pj-1 (4) 该等式只与模式串有关,与主串无关。,KMP算法,模式串的next函数定义,若模式串P为 abaabc,由定义可得next
6、函数值:,i=2 第一趟匹配: 主串 a c a b a a b a a b c a c a a b c模式串 a b j=2 next2=1i=2 第二趟匹配: 主串 a c a b a a b a a b c a c a a b c模式串 a j=1 next1=0 i=3 i=8 第三趟匹配: 主串 a c a b a a b a a b c a c a a b c模式串 a b a a b cj=1 j=6 next6=3i=8 i=12 第四趟匹配: 主串 a c a b a a b a a b c a c a a b c模式串 (a b) a a b cj=3 j=7,KMP算法手
7、工模拟,主串 S= a c a b a a b a a b c a c a a b c 模式串 T= a b a a b c,int Index_KMP(SString S, SString T, int pos) / 1posStrLength(S)i = pos; j = 1;while (i T0) return i-T0; / 匹配成功else return 0; / Index_KMP,不存在这样的k,则nextj+1=1,求next函数值的过程是一个递推过程,分析如下:,已知:next1 = 0;,假设:nextj = k;,则:nextj+1 = k+1,若:Tj Tk 则需往前
8、回溯,检查Tj = =T ?,又 Tj = =Tk,k=nextj,即:nextj+1 = nextj+1,k,即:nextj+1 = nextk+1,0 1 1 2 2 3 4 3,求模式串的next函数值举例,这实际上也是一个匹配的过程, 不同在于:主串和模式串是同一个串,void get_next(SString / get_next,next函数的改进,当i4、j4时sipj,由nextj的指示还需进行i4、j3, i4、j2,i4、j1等三次比较。 实际上,由于模式中第1、2、3个字符和第4个字符都相等,因此这种比较是不必要的,可以将模式串一次向右滑动4个字符直接进行i5、j1的比较。也就是说,若nextj=k,当si与pj失配 且pjpk,则下一步不需将主串中的si与pk比较,而是直接与nextk进行比较。,主串a a a b a a a a b,a a a a b,void get_nextval(SString / get_nextval,