收藏 分享(赏)

算法合集之《多串匹配算法及其启示》.ppt

上传人:tkhy51908 文档编号:8023346 上传时间:2019-06-04 格式:PPT 页数:37 大小:917KB
下载 相关 举报
算法合集之《多串匹配算法及其启示》.ppt_第1页
第1页 / 共37页
算法合集之《多串匹配算法及其启示》.ppt_第2页
第2页 / 共37页
算法合集之《多串匹配算法及其启示》.ppt_第3页
第3页 / 共37页
算法合集之《多串匹配算法及其启示》.ppt_第4页
第4页 / 共37页
算法合集之《多串匹配算法及其启示》.ppt_第5页
第5页 / 共37页
点击查看更多>>
资源描述

1、多串匹配算法及其启示,南京市外国语学校 朱泽园,问题提出,所谓多串匹配,就是给定一些模式串,在一段文章(只出现小写a到z这26个字母)中,找出第一个出现的任意一个模式串的位置,或者所有模式串出现的所有位置。,例子,模式串:“abcd” “bcde” 正文:,abcabcde,实际应用,含逻辑关键字的搜索引擎 DNA序列搜索 ,广!,因此用有效算法解决该问题能大大提高各行各业的工作效率!,数据规模,设共有m个模式串,长度分别为L1、L2Lm 正文为一个长度为n的数组T1n,限定,朴素想法,从小到大枚举每一个位置,并且对所有模式串进行检查。最坏情况下时间复杂度为 对每一个模式串,使用kmp算法进行

2、单串匹配,时间复杂度为,我的算法,辅助算法1:Knuth-Morris-Pratt模式匹配 辅助算法2:单词前缀树(自创) 主算法1:线性算法 辅助算法3:后缀树 主算法2:平均性能更好的算法,单词前缀树,单词查找树 前缀指针的定义 单词前缀树之所以不同于单词树,是因为它的每一个非根结点上都有一个前缀指针(Prefix Pointer)。 设s为结点p在树中对应的字符串 s的所有后缀中,找到在单词树中出现的,最长的一个,设为s1。 p结点的前缀指针指向s1对应的结点。,单词前缀树(续),举例,a,b,b,a,b,a,b,“bab”不在树中 “ab”在树中! 所以前缀指针指向“ab”,单词前缀树

3、(续),前缀指针的生成 从定义出发,穷举+扫描从kmp算法的前缀数组中吸取经验,通过父节点的前缀指针计算,单词前缀树(续),举例,a,b,b,a,b,a,b,结点p,结点q1,结点q2,主算法一,kmp算法的启发 kmp算法的精髓是减少重复的计算,根据自身的位移匹配(特征),确定模式串的右移量。,主算法一(续),单词前缀树的使用和附加标记Okay 模式串是构成单词前缀树的基本元素 模式“abcd”“bc”,a,b,c,c,b,d,p也应该标记,q,附加标记,附加标记,传递性!,主算法一(续),主过程,a,b,b,a,b,a,b,正文:“abcbcabb”,a,b,c,b,c,a,b,b,找到匹

4、配“bb”!,主算法一(续),一点注意,主算法一(续),时间复杂性分析 单词前缀树的构建 正文的检索 空间复杂性分析,主算法一(续),优化方案 二进制转化动态分配子结点+二分查找,a,后缀树概述,路经压缩McCreight(1976),On-line Construction(1995),单词:“ababc”,主算法二,单词前缀树的使用和扩展(TreeA),a,b,b,a,b,a,b,1,1,1,1,1,2,2,2,主算法二(续),参数Shift,记录每一个结点到达任意一个Okay结点(自身除外)的最短路径(既可以通过树中的边,也可以通过前缀指针),主算法二(续),举例,a,b,b,a,b,a

5、,b,1,1,1,1,1,2,2,2,主算法二(续),后缀树的使用和扩展(TreeB) 由所有模式串倒置后的所有后缀组成。 模式串为“abab”“ba”“bb” 倒置:“baba”“ab”“bb” 作用: 在O(N)的时间内,从后向 前地查看一段长度为N的字 符,检测它是否为任意一个 模式串的子串,a,b,b,a,b,ab,主算法二(续),TreeA上的函数ScanA Function ScanA(Left,Right,P);如果Shift参数 最短的模式串长度 div 2,继续读入字符并且P继续移动 输出所有遇到的匹配,xxxxxxxx,Right,Left,P,主算法二(续),TreeB上

6、的函数ScanB Function ScanB(Left,Right); 在TreeB中,将TLeftRight从右向左进行扫描,检查其是否为某个模式串的子串,返回最后扫描到的正文的位置。 定义: 当一个字符串是某个模式串的子串时,称其为“有效的”,反之为“无效的”。,主算法二(续),主过程的基本思想: 1、每次处理一个Left+1Right的段落 2、从Right向左通过ScanB检索,最后到达位置pos。 3、从pos到Right进行ScanA检索。 4、下一个过程的Left为ScanA检索到的正文位置,Right为Left + 当前TreeA上的结点的Shift参数,主算法二(续),举例

7、 模式串为 “abcd”和 “bcde” TreeA,abcabcde,ca,Right,主算法二(续),T=“abcabcde” ,Left=0, Right=4, P=1 从Right到Left+1逆向进行ScanB “a”为“有效的” “ca”为“无效的”,所以pos=4。,Left+1,模式串 “abcd” “bcde”,a,a,ca没出现,pos,主算法二(续),13的正文位置上,不可能出现模式的匹配ScanA的检索需要从TreeA根结点重新开始,P指针重置为TreeA的根结点。,abcabcde,从pos到Right进行ScanA检索,abcabcde,Right,主算法二(续),

8、pos,a,主算法二(续),阶段1: 正向ScanA检索字符串“a”,a,b,c,b,c,d,6,5,3,9,1,2,4,7,8,d,e,P,P,2 3,pos,abcabcde,bcd,Right,主算法二(续),T=“abcabcde” Left = 4, Right = Left + ShiftP = 7, P = 2 从Right到Left+1逆向进行ScanB 有“bcd”为“有效的”,所以pos=5。,Left+1,模式串 “abcd” “bcde”,bcd,pos=L+1,主算法二(续),阶段1: 正向ScanA检索字符串“bcd” 再读入字符“e”,a,b,c,b,c,d,6,

9、5,3,9,1,2,4,7,8,d,e,P,5 1,P,P,P,找到匹配“abcd”,找到匹配“bcde”,主算法二(续),时间复杂度分析: 设最短的模式串长度为 最坏情况O(N) 设所有的模式串长度均为,足够大时,若正文随机。 ScanB将所有的TLeft+1Right的字符扫描完毕的概率并不大,可以证明平均复杂度:,算法总结启示1,的使用变大ScanA将很难退出,平均复杂度变大!变小Right-Left的差变小,ScanB的pos回到Left+1的可能性变大,平均复杂度变大!,中间值!,算法总结启示2,优劣得所的思想 算术平均数 本算法 几何平均数 Editor块状链表不断更新的数组A110000,求maxA1i 更新:O(10000)。取值:O(1) 二叉树(不易实现) max1i记录A1*100(i-1)*100中的最大值 更新:O(100)。取值:O(100),启示,一条铁链的强度,决定于最弱的铁环的强度 一个水桶的水量,决定于最短的竹片的长度 在算法深度达到一定程度的前提下,我们应该将算法的广度拓宽,多种算法并用,从最弱的点找到解决问题的钥匙。 只要不断地从瓶颈处突破,解题将会“有山就有路,有河就能渡”! 最重要的是领悟“融会贯通”的思想,Thats all!,Thank you for listening.,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报