1、DNA 序列分类模型DNA 序列分类模型毕业设计(论文)原创性声明和使用授权说明原创性声明本人郑重承诺:所呈交的毕业设计(论文) ,是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得 及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。作 者 签 名: 日 期: 指导教师签名: 日 期: 使用授权说明本人完全了解 大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本
2、;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。作者签名: 日 期: 学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名: 日期: 年 月 日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的
3、规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权 大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。涉密论文按学校规定处理。作者签名: 日期: 年 月 日导师签名: 日期: 年 月 日注 意 事 项1.设计(论文)的内容包括:1)封面(按教务处制定的标准封面格式制作)2)原创性声明3)中文摘要(300 字左右) 、关键词4)外文摘要、关键词 5)目次页(附件不统一编入)6)论文主体部分:引言(或绪论) 、正文、结论7)参考文献8)致谢9)附录(对论文支持必要时)2.论文字数要求:理
4、工类设计(论文)正文字数不少于 1 万字(不包括图纸、程序清单等) ,文科类论文正文字数不少于 1.2 万字。3.附件包括:任务书、开题报告、外文译文、译文原文(复印件) 。4.文字、图表要求:1)文字通顺,语言流畅,书写字迹工整,打印字体及大小符合要求,无错别字,不准请他人代写2)工程设计类题目的图纸,要求部分用尺规绘制,部分用计算机绘制,所有图纸应符合国家技术标准规范。图表整洁,布局合理,文字注释必须使用工程字书写,不准用徒手画3)毕业论文须用 A4 单面打印,论文 50 页以上的双面打印4)图表应绘制于无格子的页面上5)软件工程类课题应有程序清单,并提供电子文档5.装订顺序1)设计(论文
5、)2)附件:按照任务书、开题报告、外文译文、译文原文(复印件)次序装订3)其它摘要本文分析了已知类别的人工 DNA 序列的特征,建立了聚类分析延拓模型和马尔可夫模型,分别对未知类别的人工 DNA 序列和自然序列进行分类,根据分类效果选出了较优模型。首先对数据进行预处理,得到人工 DNA 序列的单个碱基丰度和不同碱基丰度之比等特征量,进而分析 A、B 两类的差异,得到合适的特征判定条件对未知类别的 DNA 序列进行分类。计算人工 DNA 序列的特征量,给出各序列的统计数据。其次用聚类分析延拓模型进行分类。用 A、B 两类具有明显差异的特征作为样品特征变量,得到欧式空间中表征编号 1-20 人工
6、DNA 序列的特征向量,计算两两之间的 Lance 和 Williams 距离进行相似性度量,逐步选择相似性较大的归为一类,同时不断更新类内的标准比较特征向量,对聚类方法进行延拓,最终得到类内差异小、类间差异大的 A、B 两类,建立了聚类分析延拓模型。再对选取的特征变量进行改进,提高模型的分类效果。最后,借助均值、方差和相关系数等参数对改进模型的分类效果进行分析。再次用马尔可夫模型进行分类。将 DNA 序列看成是马尔可夫链,求出编号1-10 和 11-20 人工 DNA 序列在已知当前碱基种类的条件下,下一个碱基出现任一种的概率,结果存入概率转移矩阵 1 和 2,再利用矩阵 1 和 2 分别求
7、出编号1-20 中任一条 DNA 序列出现的概率,选择较大的一个作为该 DNA 序列的分类,建立马尔可夫模型。再进行与聚类分析延拓模型类似的改进和检验工作,然后对编号 21-40 人工 DNA 序列和 182 条自然序列进行分类,得到最终结果。最后,用层次分析法综合评价模型一与模型二,选择聚类分析延拓模型作为最终模型,其分类结果作为最终结果,具体如下:编号 21-40 人工 DNA 序列中属于 A 类的样品编号为:22,23,25 , 27,29, 30,34,35,36,37, 39;属于 B 类的样品编号为:21,24,26 , 28,31,32 ,33,38,40。182 条自然序列中,
8、属于 B 类的样品编号为:7,10, 12, 22,23,24, 26,28,30,34,43, 48,50,54,57,65,75,76,80, 84, 85,86,92, 98,103,107,110,114 ,116,119,121,122,123,127,128,129,130 ,131,137,138,140, 142,143,144,146,151,156, 159, 161,162, 163,166,168,170,173 ,174,175,179,180,181,182;其余为 A 类。关键词 DNA 序列分类 聚类分析延拓法 Lance 和 Williams 距离 马尔可夫法
9、 一、问题重述1.1 题目背景(1)2000 年 6 月,人类基因组计划中 DNA 全序列草图完成,预计 2001 年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书” 。 (2)这本 “天书”是由 4 个字符 A,T,C,G 按一定顺序排成的无间隔的长约 30 亿的序列,除了这 4 个字符表示 4 种碱基以外,人们对它包含的“内容”知之甚少。因此,破译这部世界上最巨量信息的“天书”是二十一世纪最重要的任务之一。(3)为解读这部“天书” ,首先要研究 DNA 全序列具有什么结构,以及由这4 个字符排成的看似随机的序列中隐藏着什么规律,这也是生物信息学最重
10、要的课题。1.2 题目信息(1)DNA 序列分为编码区与非编码区。编码区是用于编码蛋白质的序列片段,即由这 4 个字符组成的 64 种不同的 3 字符串,其中大多数用于编码构成蛋白质的 20 种氨基酸。(2)在不用于编码蛋白质的序列片段中,A 和 T 的含量特别多些,于是以某些碱基特别丰富作为特征去研究 DNA 序列的结构也取得了一些结果。(3)利用统计的方法还发现序列的某些片段之间具有相关性。这些发现说明 DNA 序列中存在着局部的和全局性的结构,充分发掘序列的结构对理解 DNA 全序列有十分重要的意义。目前在这项研究中最普通的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象
11、。 1.3 题目要求(1)有 20 个已知类别的人工制造的 DNA 序列(见附件 1) ,其中序列标号110 为 A 类,11-20 为 B 类。从中提取特征,构造分类方法,并用这些已知类别的序列,衡量所选分类方法是否足够好。(2)用(1)中的分类方法对另外 20 个未标明类别的人工序列(见附件1,标号 2140)进行分类,根据分类效果对方法不断完善,将得到的最终结果用序号(按从小到大的顺序)标明它们的类别(A 类或 B 类,无法分类的不写入) 。 要求详细描述所选的分类方法,给出计算程序。若论文中部分地使用了现成的分类方法,应将方法名称准确注明。 (3)已知 182 个自然 DNA 序列(见
12、附件 2) ,它们都较长。同样用以上所选的分类方法对它们进行分类,并根据分类效果对方法不断完善,像(2)中一样给出最终的分类结果。 二、 名词解释1.编码区与非编码区:编码区是指 DNA 上编码蛋白质的序列片段,而非编码区不用于编码蛋白质。2.聚类分析:由已知数据,计算各个观察个体或变量之间亲疏关系的统计量。再根据某种准则(最短距离法、最长距离法、中间距离法、重心法等) ,使同一类内的差别较小,而类与类之间的差别较大,最终将观察个体或变量分为若干类的分类方法。其中,对样品所作的分类为Q-型聚类,对变量所作的分类为R-型聚类。3.相似性度量:对数值型数据而言,两个个体的相似度是指它们在欧氏空间中
13、互相邻近的程度;而对分类型数据而言,两个个体的相似度与它们取值相同的属性的个数有关。4.样品:每个观察个体即每条DNA序列为一个样品。5.样品变量:每个样品所具有的不同特征用不同的变量来表示,变量数等于特征数。6.碱基丰度:每条 DNA 序列中碱基 A、G、C 或 T 出现的频率。三、 问题分析DNA 序列分类问题要求在对 DNA 序列的一些规律和结构有所了解的基础上,从 20 个已知类别的人工制造的 DNA 序列中提取特征,构造分类方法,并用所选择的分类方法对其余未知类别的 20 个人工制造的 DNA 序列以及 182 个自然 DNA序列进行分类。3.1 建模目标的分析DNA 序列分类是一个
14、复杂的统计分析问题,数据量大,影响因素多,无法直接从 20 条已知类别的人工制造的 DNA 序列中提取出所有的有效特征,因此有必要对这 20 条 DNA 序列进行预处理。观察并分析数据预处理结果,归纳总结出 A 类和 B 类的有效特征,将其表示成适当的数学对象,并选择适当的分类方法,建立普遍意义下数学模型,再用得到的模型对其余未知类别的 20 个人工制造的 DNA 序列以及 182 个自然 DNA序列进行分类。由题意,建立的数学模型应该保证分类结果具有以下特点:(1)类别间差异尽量大;(2)类别内差异尽量小;(3)样品能够尽可能的落入 A、B 范围,且只能落入其中的一个。3.2 建模及求解方向
15、1.分析已知类别的 DNA 序列 1-20 的结构,提取出相应的特征。主要的特征有:碱基的丰度、碱基或碱基序列的重复出现情况、碱基或碱基序列之间的相邻情况、不同碱基的丰度之比(如碱基 A 与碱基 T 的丰度之比)等。2. 根据提取出的特征,选用合适的分类方法。对数据进行预处理后,尝试以下方法建立模型:(1)根据聚类分析法,建立模型一。由题意,DNA 序列分类属于对样品所做的分类,为 Q-型聚类。首先引入样品变量,例如可选择碱基 T 的丰度、碱基 G 的丰度、碱基 T 与碱基 G 的丰度之比、碱基 A 与碱基 T 的丰度之比等。由已知数据,计算出每条已知类别的人工制造的 DNA 序列的各个样品变
16、量值,存入向量中。根据相似性度量原理,计算 20 个样品两两之间的 Lance 和 Williams 距离,选择相距最远的两个样品(假设为样品 3 和样品 16)分别作为 A 类和 B 类,再分别以样品 3 和样品 16 为标准点,通过分别计算样品 3 和样品 16 与其余 18 个样品之间的 Lance 和 Williams 距离,找出与其相距最近的一个样品(假设为样品 1 和样品 18)归为一类。此时,新的标准点变为样品 1 与样品 3 的中点、样品 16 与样品 18 的中点。然后再以新的标准点为基准,分别找出与其相距最近的一个样品归为一类。逐步进行下去,直至 20 个样品被明显分成 A
17、、B 两类。(2)根据马尔可夫法,建立模型二。以单个碱基为单位,分别统计编号 1-10 和编号 11-20 人工制造的已知类别的 DNA 序列中 4 种碱基出现的次数,再以相邻的两个碱基为单位(共 16 种组合情况) ,分别统计编号 1-10 和编号 11-20 的 DNA 序列中 16 种碱基对出现的次数。为满足大样本需求,将 A 类和 B 类中的 10 条 DNA 序列组合起来看作两个大样品,单个碱基或碱基对出现(不包括上一条链的末尾碱基与下一条链的初始碱基组合的情况)的次数为 10 条序列之和。由条件概率的思想,分别求出 A 类和 B 类大样品中在已知当前碱基种类(可以为 A、G、C、T
18、 中任何一个)的条件下,下一个碱基分别为 A、G、C、T的概率,存入两个矩阵 1 和 2 中。对于任何一条给定的 DNA 序列,可将其看作一个已经发生的事件,说明该事件发生的概率比较大。用矩阵 1 和矩阵 2 分别求出这一事件发生(即形成当前 DNA 序列)的概率,若用矩阵 1 算出该编号的DNA 序列出现的概率较大,则该编号的 DNA 序列属于 A 类,否则属于 B 类。3.模型的初步检验与改进。用编号 1-20 已知类别的序列,分别衡量模型一与模型二中所选方法是否足够好,不断改进,尽可能使 1-20 号 DNA 序列在所选分类方法下,所得结果与已知分类完全一致。改进时,对于聚类分析法,可以
19、尝试改变样品变量的个数或者改变样品变量的组合方式;对于马尔可夫法,可以尝试引进中间变量,运用隐马尔可夫法求解。4.模型的进一步检验与完善。(1)用以上的得到的两种分类方法对编号 20-40 未知类别的人工序列、182个自然序列进行分类。(2)通过计算样品方差、均值等比较两种分类方法得到的分类结果与建模目标类别间差异尽量大、类别内差异尽量小、样品能够尽可能的落入 A、B范围,且只能落入其中的一个的接近程度。(3)选择更接近建模目标的一种分类方法作为最终的分类方法,其分类结果即为最终结果。四、基本假设1.假设所给的 DNA 序列片段中没有断句和标点符号。2.假设具有特殊碱基的 DNA 序列中,特殊
20、碱基可以剔除,其影响可以忽略。3.较长的 182 个自然序列与已知类别的 20 个样本序列具有共同的特征。4.假设给定的DNA序列均是从全序列中随机截取出来的,无法确定序列的起始位, 无法从序列中辨认出氨基酸,所以,在对DNA 序列分类时,从碱基层次上进行分类, 而不是从氨基酸层次上分类。五、定义与符号说明:各个样品中碱基 出现的数量,i 为 A、T 、C 或 Gin:第 i 个样品的总碱基数目iN:各个样品中碱基 的丰度,i 为 A、T 、C 或 GiF:各个样品的第 i 个特征变量ix:各个样品中碱基 i 和碱基 j 的比值,i,j 为 A、T、C 或 Gijf:第 i 个样品的特征向量i
21、Y:向量 和向量 间的 Lance 和 Williams 距离ijdijY:特征向量的分量个数,即向量的维数p:特征向量的第 k 个分量k:样品的个数n:特征向量 i 的第 k 个分量ikx:不同向量代表的 维空间中任意两点间 Lance 和 Williams 距离的最大值madp:不同向量代表的 维空间中任意两点间 Lance 和 Williams 距离的最小值in:聚类分析中 i 类的标准向量,i 为 A 或 Biy六、数据预处理1.A 类和 B 类样品单个碱基丰度的计算用 maTlab 编写程序(见附件 3) ,分别求出 20 条已知类别的人工制造的DNA 序列中,4 种碱基的丰度,绘出
22、散点图如下:图 6.1.1 单个碱基丰度比较图分析上图可得, A 类和 B 类 DNA 序列中碱基 T 和碱基 G 的丰度有明显差异,而碱基 A 和碱基 C 的丰度则比较接近。2. A 类和 B 类样品不同碱基丰度之比的计算用 matlab 编写程序(见附件 4) ,分别求出 20 条已知类别的人工制造的DNA 序列中,不同碱基的丰度之比,包括 、 、 、 、 、 ,绘出TAfCGAfCTGfC散点图如下:图 6.1.2 不同碱基丰度之比的比较图分析上图可得, A 类和 B 类 DNA 序列中,碱基 T 与碱基 A 的丰度之比、碱基 G 与碱基 A 的丰度之比、碱基 C 与碱基 T 的丰度之比、碱基 G 与碱基 T 的丰度之比有明显差异,而碱基 C 与碱基 A 的丰度之比、碱基 G 与碱基 C 的丰度之比则比较接近。3.将编号 1-40 人工制造的 DNA 序列的中,碱基 T 的丰度、碱基 G 的丰度、碱基T 与碱基 A 的丰度之比、碱基 G 与碱基 A 的丰度之比、碱基 C 与碱基 T 的丰度之比、碱基 G 与碱基 T 的丰度之比,用表格的形式加以表达(见附件 5,表 1) 。4.统计所有 DNA 序列中碱基 A、T、C、G 的比例,发现在未知类别的人工制造的