1、DNA 序列分类的统计分析摘要:本问题是一个关于 DNA 序列分类的统计分析的问题,题中可以分为两个问题,问题一:从 A、B 类中提取特征,构造分类方法,并用已知类别的序列,衡量该方法是否足够好并用最满意的方法,对另外 20 个未标明类别的人工序列进行分类;问题二:数据文件给出了 182 个较长的自然 DNA 序列,用问题一中的最优分类方法对它们进行分类,给出分类结果。问题一是在已知 A、B 两类 DNA 序列模型的条件下,用至少不同判定方法找到两类的模型的判定标准。再利用不同判定标准将各串 DNA 序列进行分类,并找到最优判定方法。本文采用三种方法进行判定:1、根据各类 DNA 序列的碱基(
2、碱基 a, 碱基 t 碱基,g, 碱基 c)出现次数的均值进行统计,利用欧式距离判别模型和 Fisher 判别模型分别计算出判别标准。然后,分别将已分类的前 20 组 DNA 序列再次分类进行检验,得到准确率。最后,将后 20 组 DNA序列进行分类。得到欧式距离判别模型和 Fisher 判别模型的准确率都为 95%。通过对两种判定方法的总结与分析,最终得出:Fisher 判别模型更好;2、根据各类 DNA 序列的碱基组成的 3 字符串的含量进行统计, 。 。 。最终确定:判定方法。 。是最优判定方法。得到结果:A 类:22 23 25 27 29 34 35 36 37B 类:21 24 2
3、6 28 30 31 32 33 38 39 40问题二是在得出问题一的计算结果将比较长的自然 DNA 序列进行分类,相当于问题一的拓展模型。所以,只要将比较长的自然 DNA 序列代入问题一中最好的判定方法并计算,就可以进行 DNA 序列的分类了。得到结果:A 类:B 类:关键字: DNA 序列分类,欧式距离判别模型, Fisher 判别模型,特征向量。 。 。1、问题重述:本问题是一个关于 DNA 序列分类的统计分析的问题,题中可以分为两个小问题:问题一:有 20 个已知类别的人工制造的序列(见附录 1) ,其中序列标号 110 为 A 类,11-20 为 B 类。请从中提取特征,构造分类方
4、法,并用这些已知类别的序列,衡量该方法是否足够好。然后用你认为满意的方法,对另外 20 个未标明类别的人工序列(标号 2140) (见附录 1)进行分类,把结果用序号(按从小到大的顺序)标明它们的类别(无法分类的不写入): 问题二:在同样网址的数据文件 Nat-model-data 中给出了 182 个自然 DNA 序列,它们都较长。问题一分类方法对它们进行分类,并给出分类结果。2、问题分析:2.1 总体分析对于问题一,应首先对不同种类的各个序列提取特征,然后给出相应的数学表示,最后构造判别方法并进行筛选,对于任意一个 DNA 序列,能够反映该序列的特征有两个: 1、DNA 序列的碱基(碱基
5、a, 碱基 t 碱基,g, 碱基 c)含量;2、DNA 序列碱基组成的 3 字符串的含量对于特征(1):首先,利用欧式距离判别模型和 Fisher 判别模型分别计算出判别标准。然后,分别将已分类的前 20 组 DNA 序列再次分类进行检验,得到准确率。最后,将后 20 组 DNA序列进行分类。得到欧式距离判别模型和 Fisher 判别模型的准确率。通过对两种判定方法的总结与分析,最终得出较好的判别方法;对于问题二,是在得出问题一的计算结果将比较长的自然 DNA 序列进行分类,相当于问题一的拓展模型。所以,只要将比较长的自然 DNA 序列代入问题一中最好的判定方法并计算,就可以进行 DNA 序列
6、的分类了。2.2 基于碱基含量特征的判别模型首先,考虑采用根据各类 DNA 序列的碱基的含量作为序列特征。由题意可知,再不用于编码的蛋白质的序列片段中,a 和 t 的含量相对较多,因此,以碱基的含量作为DNA 序列的结构特征是可行的。将序列中的 的出现次数记为 将四种碱基表示成的四维向量a,gtcna,gc来进行计算,记标号为 的序列的特征向量为 ,其中,任意序列的特征(n,gtc)i iX向量与一个四维空间的点对应。在本题中,已知分类的 DNA 序列样本共有 n=20 个,其中,前 10 个属于 A 类,后10 个属于 B 类。对此,我们分别采用欧氏距离判别模型和 Fisher 判别模型对
7、DNA 序列样本进行分类。2.3 基于由碱基组成的字符串特征的判别模型3、符号说明与基本假设:3.1 符号说明na:任意给出的 DNA 序列中 a 的百分含量;ng:任意给出的 DNA 序列中 g 的百分含量;nt:任意给出的 DNA 序列中 t 的百分含量;nc:任意给出的 DNA 序列中 c 的百分含量;Gi:由具有相同特征属性的个体构成的类3.2 基本假设1、假设碱基序列的特征值包括:碱基含量特征、碱基位置、由碱基组成的字符串特征;2、假设各种碱基之间的内部结构忽略;3、假设在对 DNA 序列分类时,是从碱基层次上进行分类,而不是从氨基酸层次上分类。4、假设无法分类的序列在待分类序列,即
8、在样本序列 21-40 中不超过 5%;5、假设无法分类的序列在 DNA 序列中是均匀分布的;6、假设题中所给的数据无误差;7、假设用 4 种碱基 a、c、g、t 的含量作为指标来判别类别是充分的;4、模型建立与求解:4.1 基于碱基含量特征的判别模型4.1.1 欧氏距离分类模型在欧氏距离分类模型中,将每一个样本看成四维空间的一个点,以他们到不同集合几何中心的欧氏距离作为判断依据,具体步骤:1、我们分别对 20 个 A 类的 DNA 序列的 4 中碱基出现个事进行统计得到表 1: 表 1碱基种类样本出现次数 a c g tx1 33 19 44 15x2 30 18 46 17x3 30 24
9、 50 7x4 47 12 20 32x5 36 26 47 12x6 39 14 44 14x7 39 11 40 21x8 31 18 41 21x9 23 23 48 17x10 20 30 45 15平均值 a 31.8 19.5 42.5 17.1再对 20 个 B 类的 DNA 序列的 4 中碱基出现个事进行统计得到表 2:表 2碱基种类样本出现次数 a c g tx11 39 5 11 55x12 36 3 16 55x13 28 11 14 57x14 33 9 13 55x15 32 0 7 71x16 40 9 10 51x17 39 27 15 29x18 32 13 1
10、0 55x19 24 16 8 62x20 22 19 7 62平均值 b 23.50 11.20 11.10 55.20 2、设有两个总体(或称两类)A、B,从第一个总体中抽取 10 个样品,从第二个总体中抽取 10 个样品,每个样品测量 4 个指标(a,c,g,t)如表 1,表 2。今任取一个样品,实测指标值为 。14(,)Xx3、首先计算 X 到 A、B 总体的距离,分别记为 和 ,按距离最近准(,DXA(,)B则判别归类,则可写成: ,(,)(,),(,)(,)XAB当当待 判 当则可计算出 (,)()DaXBXB4、然后比较 和 大小,按距离最近准则判别归类(,)A(,)5、用此算法
11、对已知样本 A1-A20 进行分类,发现:除了 A17 被错误的分到了 A 类外,其余样本全部正确,准确率达到 95%。6、利用该方法对人工序列 A21-A40 进行分类,得到的结果是A 类:22 23 25 27 29 30 32 34 35 36 37 39B 类:21 24 26 28 31 33 38 404.1.2 Fisher 判别模型Fisher 分类方法的思想就是将四维的样本映射成一维的特征值 y,并依据 u 来进行判别。具体的做法是先引入一个与样本同维的待定向量 u,在讲 y 取为 X 坐标的线性组合 。而 u 的选取,要是同一类别产生的 y 尽量聚拢,不同类别产生的 y 尽
12、量Tyx拉开。这样,我们就可以将样品 X 到某一类 G 的距离定义为 与 之间的TxTcu欧氏距离: (,)()TLycu其中,c 是 G 的几何中心。Fisher 分类的依据为:,(,)(,),(,)(,)XAXLBB当当待 判 当 L用此算法对已知样本 A1-A20 进行分类,发现:除了 A4 被错误的分到了 B 类外,其余样本全部正确,准确率也达到 95%。利用该方法对人工序列 A21-A40 进行分类,得到的结果是A 类:22 23 25 27 29 34 35 37B 类:21 24 26 30 31 32 33 36 38 39 404.1.3 比较两种模型欧氏距离判别法虽然简单、
13、直观、易懂,但也存在一些明显的不足:当待分类的样本是完全随机的样本时,此模型不能很好地将两个随机点间的距离相近度描述出来;Fisher 判别模型4.2 判别碱基位置特征的。 。 。分类模型附录 1:Art-model-data1.aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggccggaagtgaagggggatatgaccgcttgg2.cggaggacaaacgggatggcggtattggaggtggcggactgttcggggaattattcggtttaaacgggacaa
14、ggaaggcggctggaacaaccggacggtggcagcaaagga3.gggacggatacggattctggccacggacggaaaggaggacacggcggacatacacggcggcaacggacggaacggaggaaggagggcggcaatcggtacggaggcggcgga4.atggataacggaaacaaaccagacaaacttcggtagaaatacagaagcttagatgcatatgttttttaaataaaatttgtattattatggtatcataaaaaaaggttgcga5.cggctggcggacaacggactggcggattccaaa
15、aacggaggaggcggacggaggctacaccaccgtttcggcggaaaggcggagggctggcaggaggctcattacggggag6.atggaaaattttcggaaaggcggcaggcaggaggcaaaggcggaaaggaaggaaacggcggatatttcggaagtggatattaggagggcggaataaaggaacggcggcaca7.atgggattattgaatggcggaggaagatccggaataaaatatggcggaaagaacttgttttcggaaatggaaaaaggactaggaatcggcggcaggaaggatatgga
16、ggcg8.atggccgatcggcttaggctggaaggaacaaataggcggaattaaggaaggcgttctcgcttttcgacaaggaggcggaccataggaggcggattaggaacggttatgagg9.atggcggaaaaaggaaatgtttggcatcggcgggctccggcaactggaggttcggccatggaggcgaaaatcgtgggcggcggcagcgctggccggagtttgaggagcgcg10.tggccgcggaggggcccgtcgggcgcggatttctacaagggcttcctgttaaggaggtggcatccag
17、gcgtcgcacgctcggcgcggcaggaggcacgcgggaaaaaacg11.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaattaaatatttatt12.gtttaattactttatcatttaatttaggttttaattttaaatttaatttaggtaagatgaatttggttttttttaaggtagttatttaattatcgttaaggaaagttaaa13.gtattacaggcagaccttatttaggtta
18、ttattattatttggattttttttttttttttttttaagttaaccgaattattttctttaaagacgttacttaatgtcaatgc14.gttagtcttttttagattaaattattagattatgcagtttttttacataagaaaatttttttttcggagttcatattctaatctgtctttattaaatcttagagatatta15.gtattatatttttttatttttattattttagaatataatttgaggtatgtgtttaaaaaaaatttttttttttttttttttttttttttttttaaaatttat
19、aaatttaa16.gttatttttaaatttaattttaattttaaaatacaaaatttttactttctaaaattggtctctggatcgataatgtaaacttattgaatctatagaattacattattgat17.gtatgtctatttcacggaagaatgcaccactatatgatttgaaattatctatggctaaaaaccctcagtaaaatcaatccctaaacccttaaaaaacggcggcctatccc18.gttaattatttattccttacgggcaattaattatttattacggttttatttacaatttttttt
20、ttttgtcctatagagaaattacttacaaaacgttattttacatactt19.gttacattatttattattatccgttatcgataattttttacctcttttttcgctgagtttttattcttactttttttcttctttatataggatctcatttaatatcttaa20.gtatttaactctctttactttttttttcactctctacattttcatcttctaaaactgtttgatttaaacttttgtttctttaaggattttttttacttatcctctgttat21.tttagctcagtccagctagctagt
21、ttacaatttcgacaccagtttcgcaccatcttaaatttcgatccgtaccgtaatttagcttagatttggatttaaaggatttagattga22.tttagtacagtagctcagtccaagaacgatgtttaccgtaacgtqacgtaccgtacgctaccgttaccggattccggaaagccgattaaggaccgatcgaaaggg 23.cgggcggatttaggccgacggggacccgggattcgggacccgaggaaattcccggattaaggtttagcttcccgggatttagggcccggatggctggga
22、ccc24.tttagctagctactttagctatttttagtagctagccagcctttaaggctagctttagctagcattgttctttattgggacccaagttcgacttttacgatttagttttgaccgt25.gaccaaaggtgggctttagggacccgatgctttagtcgcagctggaccagttccccagggtattaggcaaaagctgacgggcaattgcaatttaggcttaggcca26.gatttactttagcatttttagctgacgttagcaagcattagctttagccaatttcgcatttgccagtt
23、tcgcagctcagttttaacgcgggatctttagcttcaagctttttac 27.ggattcggatttacccggggattggcggaacgggacctttaggtcgggacccattaggagtaaatgccaaaggacgctggtttagccagtccgttaaggcttag28.tccttagatttcagttactatatttgacttacagtctttgagatttcccttacgattttgacttaaaatttagacgttagggcttatcagttatggattaatttagcttattttcga29.ggccaattccggtaggaaggtga
24、tggcccgggggttcccgggaggatttaggctgacgggccggccatttcggtttagggagggccgggacgcgttagggc30.cgctaagcagctcaagctcagtcagtcacgtttgccaagtcagtaatttgccaaagttaaccgttagctgacgctgaacgctaaacagtattagctgatgactcgta31.ttaaggacttaggctttagcagttactttagtttagttccaagctacgtttacgggaccagatgctagctagcaatttattatccgtattaggcttaccgtaggtttag
25、cgt32.gctaccgggcagtctttaacgtagctaccgtttagtttgggcccagccttgcggtgtttcggattaaattcgttgtcagtcgctctrtgggtttagtcattcccaaaagg33.cagttagctgaatcgtttagccatttgacgtaaacatgattttacgtacgtaaattttagccctgacgtttagctaggaatttatgctgacgtagcgatcgactttagcac34.cggttagggcaaaggttggatttcgacccagggggaaagcccgggacccgaacccagggctttagcg
26、taggctgacgctaggcttaggttggaacccggaaa35.gcggaagggcgtaggtttgggatgcttagccgtaggctagctttcgacacgatcgattcgcaccacaggataaaagttaagggaccggtaagtcgcggtagcc36.ctagctacgaacgctttaggcgcccccgggagtagtcgttaccgttagtatagcagtcgcagtcgcaattcgcaaaagtccccagctttagccccagagtcgacg37.gggatgctgacgctggttagctttaggcttagcgtagctttagggccc
27、cagtctgcaggaaatgcccaaaggaggcccaccgggtagatgccasagtgcaccgt38.aacttttagggcatttccagttttacgggttattttcccagttaaactttgcaccattttacgtgttacgatttacgtataatttgaccttattttggacactttagtttgggttac39.ttagggccaagtcccgaggcaaggaattctgatccaagtccaatcacgtacagtccaagtcaccgtttgcagctaccgtttaccgtacgttgcaagtcaaatccat40.ccattagggtttatttacctgtttattttttcccgagaccttaggtttaccgtactttttaacggtttacctttgaaatttttggactagcttaccctggatttaacggccagttt