1、 后缀树论文:生物序列索引结构构造算法研究【中文摘要】生物信息学是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。如何快速而有效地对生物数据进行处理,从而发现蕴涵于其中的丰富生物知识,是生物信息学研究的重要内容。其中,生物序列的索引技术是目前的一个研究热点。本文主要是对生物序列的索引结构进行研究,重点研究了索引结构的构造算法。首先介绍了索引技术的发展现状,阐述了后缀树和后缀数组索引结构的定义以及相关概念,总结了国内外现有的索引结构构造算法。然后着重介绍并分析了基于后缀数组和后缀树等数据结构的索引结构构造算法。对于较小的序列来说,后缀树索引是一种很好的解决办法,但由于存在
2、“内存瓶颈”问题,不适合大的序列;而后缀数组则需较少的存储空间,但在数据搜索方面的效率却较低。由此,本文基于自顶向下的后缀树构造思想,提出了一种基于后缀树的索引结构分步构造算法。首先对所有后缀按照字母表顺序进行排序,再求出有序相邻后缀之间的最长公共前缀,最后根据后缀顺序和最长公共前缀构造后缀树。该算法不但可以在线性时间内构造后缀树,而且不需要使用后缀链,在一定程度上缓解了“内存瓶颈”问题。【英文摘要】Bioinformatics is the science of using computer technology to store, retrieve and analyze biologic
3、al information in the field of life sciences. To develop rapid and effective computer algorithm to find knowledge from very large biological data is the main research work.This thesis mainly focuses on the study of suffix tree and suffix array index technical dealing with bio-sequences. First, index
4、 structure of bio-sequences is described, then several algorithms of indes structure construction based on the.【关键词】后缀树 后缀排序 后缀数组 最长公共前缀 自顶向下【英文关键词】suffix tree suffix sorting suffix array longest common prefix top-down【目录】生物序列索引结构构造算法研究 摘要 3-4 Abstract 4 第一章 绪论 7-11 1.1 研究背景 7-8 1.1.1 研究动机与意义 7-8 1.
5、1.2 生物序列上的索引技术 8 1.2 本文研究工作 8-9 1.3 本文组织结构 9-11 第二章 生物序列索引结构概述 11-23 2.1 后缀树索引结构 11-13 2.2 后缀数组索引结构 13-14 2.3 其他索引结构 14-15 2.4 后缀树与后缀数组比较 15 2.5 索引结构的存储 15-17 2.5.1 直接存储方式 15-16 2.5.2 优化储存方式 16-17 2.6 生物序列的搜索技术 17-18 2.6.1 精确字符串匹配 17 2.6.2 近似字符串匹配 17-18 2.7 索引结构的应用 18-21 2.7.1 基于后缀树的多序列比对算法 18-19 2.
6、7.2 QUASAR 算法 19-21 2.8 本章小结 21-23 第三章 常见的索引结构构造算法 23-35 3.1 基于后缀数组的索引结构构造算法 23-28 3.2 基于后缀树的索引结构构造算法 28-32 3.2.1 后缀树相关术语 28 3.2.2 Ukkonen 后缀树构造 28-31 3.2.3 自顶向下的后缀树构造算法 31-32 3.3 本章小结 32-35 第四章 分步的后缀树索引结构构造算法 35-43 4.1 对文本中的所有后缀进行排序 35-38 4.2 求相邻后缀之间的最长公共前缀 38-39 4.3 构造后缀树 39-40 4.4 算法分析及实验结果 40-41 4.5 本章小结 41-43 第五章 总结与展望 43-45 致谢 45-47 参考文献 47-51 研究成果 51