1、Excel计算和作图;序列数据应用于试验室技术改良(8); 第一章、生物信息数据库(12) 第二章、数据库检索(25) 第三章、序列比对(30) 一 序列比对策略(31);二 算法(34) ;三 序列双重比对(42) ;四 多序列比对(47)。 第四章 在系统发生分析中的应用(51) 第五章、生物信息学在基因组构建中的应用;一 基因的识别和鉴定(62)二 蛋白质功能的预测(73) ;三 蛋白质结构预测(78) ;四 基因组中非编码区的研究(96) ;五 人类基因组多样性计划(102) 。 第六章、计算机在其他方面的应用(107);药物开发(110)。 第七章、生物信息学在组学中的应用;一 基因
2、组学研究(119);二 功能基因组研究(128) ;三 蛋白质组研究(137) ;四 蛋白质的功能确定(140);五 代谢组(142);六 网络研究(145);七 细胞计划(157) 。 第八章、生物医学信息资源(160),计算机在生命科学和生物技术中的应用,计算机是生物研究的工具。为了了解计算机工具在生物研究中的应用,首先需要了解生物研究的现状。 基因决定论由于DNA双螺旋结构的发现,基因决定论成为主要观点。人们尝试寻找决定生物功能的基因,但是受到挫折。,一是由于美国能源部用30多年研究“核辐射对人类基因突变作用”,未取得实质性突破进展,受害者已表现 出明显的突变性状,但检测不出其基因突变与
3、对照组存在显著性差异。 二是美国于1975年巨额投资启动的“肿瘤十年计划”基本以失败告终。R. Dulbecco 于1986在science上发表癌症研究的转折点:测序人类基因组,认为要彻底阐明癌症的发生、演进、侵袭和转移的机制,必须对人体细胞的基因组进行全测序。美国政府与1990年正式启动HGP。,基因组学由于基因组是物种所有遗传信息的储藏库,从根本上决定着物种个体的发育和生理,因此,在研究遗传、发育、进化、功能调控等基本生物学问题方面,基因组学关注的是基因组整体的作用,而不是个别基因。功能基因组学(后基因组学)的中心任务是通过了解基因组表达与环境的关系,以及其在基本生物学方面和人类健康和疾
4、病相关的生物医学问题方面的意义。 后基因组学 转录组学:关注mRNA的组成和细胞功能的关系。,蛋白质组学:其中心任务是通过比较不同时间或不同细胞的蛋白质组成,以揭示蛋白质变化的生物学意义。 结构基因组学:了解蛋白质三维结构与蛋白质功能的关系。 蛋白质相互作用网络:了解蛋白质相互作用。 代谢组学:其中心任务是通过比较不同时间或不同细胞的小分子组成,揭示生物学意义。 系统生物学:以一个理论模式为基础,与基因组学和蛋白质组学的表现进行比较,判断生物在分子水平上复杂的相互作用。,生物学发展的展望W. Gilbert (80年诺贝尔化学奖)91年专门在“nature”撰文讨论生物学研究形式的变化:正在兴
5、起的新的范式在于,所有的基因将被知晓(在可用电子方式从数据库里读取的意义上),今后生物学研究项目的起点将是理论的。一位科学家将从理论猜测开始,然后才转向实验去继续或检验该假设。新的范式:从机理出发,推论在一定条件下细胞的表现,再用实验去验证。现代,生物学已分为两个部分:,试验生物学:传统的、依靠实践发现事物的性质和活动规律的学科。 研究对象是组成生物体的元件。研究手段是物质分离和检测技术。当前主要在于建立高通量检测技术。 理论生物学:根据事物已知性质和活动规律推导其可能性质和活动规律的学科。 研究对象是生物体整体。研究手段是逻辑分析和推导。 计算机作为生物研究的工具,在前期生物学研究工作中作为
6、计算和存储工具起辅助作用。在当前生物学研究工作中作为数据处理工具。数据处理是高通量检测技术和理论生物学研究的主要方法。产生生物信息学。,一 Excel的功能: 表格处理;图表功能;数据库管理功能。 1 图表制作 建立图表,激活和修改图表项。 2 计算 引用:相对引用(=(a1-b1)/c1*d1)绝对引用($ a$1-$b$1)/$c$1*$d$1 ) 函数:chitest(检验相关性);slope(斜率);intercept(截距)。 二 化学做图: ISIS DRAW2的应用 下载软件:www.bio- 数据分析技术的发展:1962年Zuckerkandl和Pauling将序列变异分析与其
7、演化关系联系起来,开辟了分子演化的研究领域;1964年Davies开创了蛋白质结构预测研究;1970年Needoeman和Wunsch发表了两序列比较算法;1974年Ratner运用理论方法对分子遗传调控系统进行分析;1975年Pipas和McMahon用计算机技术预测二级结构。1976年后生物学数据分析技术大量涌现。2 人类基因组计划产生了大量基因信息(图0),生物信息学(bioinformatics):利用计算机技术并参照现代信息技术,对生物信息进行储存、检索和综合分析。及一是对海量数据的收集、整理与服务。二是使用数据。 生物信息学是把DNA序列分析作为源头,找到基因组序列中代表蛋白质和m
8、RNA的编码区;同时,阐明基因组中大量存在的非编码区的信息实质,破译隐藏在DNA序列中的遗传语言规律;在此基础上,归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白质谱的数据,从而认识代谢、发育、分化、进化的规律。,生物信息学基本方法: 1 数据库信息检索; 2 用序列比对(alignment,对位排列)方法进行数据库序列检索; 3 网络分析,计算机模拟。问题:你对生物信息学的认识,第一章 生物信息数据库,生物信息数据库分类保存各种生物信息,为大家提供计算机分析的基本材料。例文献数据库、序列数据库。一 信息中心:维护和提供数据库服务。主要工作:在分子水平上应用数学和计算科学的方法研究基础
9、生物、医学问题;为科学和医学界开发、维护和分享一系列的生物信息学数据库;开发和促进生物信息学数据库、数据存储、交换以及生物学命名规则的标准化。,重要的生物信息中心: 1 美国国家生物技术信息中心(NCBI) www.ncbi.nlm.nih.gov/ (管理着包括GenBank在内的一批数据库) 2 欧洲生物信息学研究所(EBI)www.ebi.ac.uk/ (主网页,可链接到其他项目)www2.ebi.ac.uk (各种数据库和分析工具)www3.ebi.ac.uk (公众服务网页),3 日本核酸数据库(DDBJ):www.ddbj.nig.ac.jp/ 4 北京大学生物信息中心 (CBI或
10、PKUCBI,是EMBnet的中国节点,也是APBionet的中国节点) 序列数据库,1 一级数据库:记录实验结果和初步的解释 2 二级数据库:从一级数据库提取的信息构建的数据库一级核酸序列数据库: (A)GenBank:www.ncbi.nlm.nih.gov/genband/ (B)EMBL(欧洲分子生物学实验室的DNA和RNA数据库): www.ebi.ac.uk/,(C)DDBJ(日本核酸数据库):www.ddbj.nig.ac.jp/翻译编码的DNA序列(根据ORF,数据库中搜索) (D)GeneBuilder:r.it/webgene/genebuilder.html (E)上海
11、生命科学中心: (A) PIR-PSD:序列来自于GenBank/EMBL/DDBJ的编码序列的翻译、文献中的和用户,直接提交的序列。目前最大的公共蛋白质序列数据库。衍生出iProClass(描述蛋白质家族的关系及结构/功能特征),还有PIR-NREF ,PIR-ASDB,IESA,PIR-NRL3D,RESID,PIR-ALN等其他辅助数据库。pir.georgetown.edu/pirwww/ (B)SWISS-PROT/TrEMBL:经注释的蛋白质数据库。每个条目包括蛋白质序列、引用文献、分类学信息、注释等。注释包括蛋白质功能、转录后修饰位点、特殊位点和区域、二级结构、四级结构、与其他序
12、列的形式性、序列残缺与疾病的关系、序列变异体等信息。www.expasy.org/swissprot/,二级核酸序列数据库 CUTG:密码子使用频度表www.dna.affrc.go.jp/nakamura/CUTG.html EPD:真核生物启动子数据库www.epd.isb-sib.ch/ OOTFD:转录因子和基因表达数据库www.ifti.org/ RepBase:真核生物DNA中重复序列数据库www.firinst.orf/server/repbase.html MPDB:外显子和内含子数据库www.biotech.ist.unige.it/interlab/mpdb.html,三
13、专门研究的数据库,HGMD(可用于预测基因疾病): www.uwcm.ac.uk/medical_genetics/research/hgmd/ PDD(人类体液中蛋白质与疾病关系):www-lmmb.ncifcrf.gov/pdd/ HIV(爱滋病分子免疫学):hiv-web.lanl.gov/immunology/immuno-main.html WIT(重构代谢) :wit.ics.anl.gov/wit2/ CSNDB(细胞信号网络):geo.nihs.go.jp/csndb/,AgDB(农业数据库和信息资源总清单):www.agnic.org/agdb/ PharmGKB( 药物遗传
14、学和药物基因组学):www.pharmgkb.org/ GBIF(全球生物多样性信息机构):www.gbif.org/linkfram.htm 四 模式生物数据库 模式生物:,人(Homo sapiens);小鼠(Mus musculus);大肠杆菌(Escherichia coli);酿酒酵母(Saccharomyces cerevisiae);果蝇(Drosophila melanogaster):遗传;秀丽线虫(Caenorhabitedis elegans):只有约千个细胞的动物,研究RNAi的模式生物;海胆(Strongylocentrotus purpuratus):研究发育和基因
15、调控的模式生物;拟南芥(Arabidopsis thaliana):生活周期6周的十字花科植物,研究植物的模式生物。,1 各种生物信息中心2 大肠杆菌K12完全基因组序列:www.genetics.wisc.edu/pub/3 MYGD(酵母基因组蛋白质和同源关系数据库)www.mips.biochem.mpg.de/proj/yeast/4 BDGP(果蝇基因组中心): www.fruitfly.org/,五 其他数据库,1 PubMed:生物医学文献数据库2 OMIM(Online Mendelian inheritance in Man):保存所有已知的人类生物学和疾病信息的数据库3 G
16、eneCard:www.genecard.org/ 保存注释过(定性)基因的数据库4 LocusLink:同3,六 数据库目录,1 核酸研究(每年第一期是数据库专集) :www.nar.oupjournals.org/ 2 NAR (核酸研究数据库总汇) :www3.oup.co.uk/nar/databse/ 3 DBcat (法国生物信息中心):www.infobiogen.fr/services/dbcat/ 4 nature(介绍基因组测序进展的新闻):www.nature/genomics问题:生物信息数据库的作用,第二章 数据库检索,一 序列数据库检索 1 序列检索工具: Entr
17、ez:Batch Entrez (批处理) ,NCBI提供的集成检索工具。可以通过一次检索而查询到多个子系统中的所有信息。主页面有两个窗口 1) 下拉式菜单:选择14个数据库 2) 搜索:关键词、作者、杂志、名、物种、检索号等。 3) 查询结果右上角的link表示与其他数据库的超级连接。,SRS:Sequence Retrieval System,EBI的检索工具。 有三种查询方式: 1)Quick Sequence:快速查询。选择数据库查关键词。 2) Standard:标准查询。由用户限定查询条件。 3) Extended:扩展查询。可以将输入关键词的查寻范围限定在物种、说明、作者、文献等
18、范围内,也可以先定日期和序列长度。,二 序列文件的格式,1 GBFF格式( GenBank flatfile, GenBank平面文件)。 (图 1,图2,图3) BACs(bacterial artificial chromosomes)细菌人工染色体:携带人类基因DNA片段的细菌载体 YACs(yeast artificial chromosomes)酵母人工染色体:携带人类基因DNA片段的酵母载体 STS(sequence tagged site)序列标签位点:染色体上独特的DNA序列短片段 ESTs(expressed sequence tags)表达序列标签:cDNA 5端的短片段,
19、2 FASTA格式 :第一行:打头的文字说明,主要为标记序列用。 第二行开始是序列,每行不超过80个字母(核酸大小写均可,氨基酸一般大写)。 由于FASTA没有特殊的结束标志,建议最后留一空行。 gi | 1293613 | gb | U49845 | SCU49845 Saccharomyces cerevisiae TCP-beta gene, partial cds; and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds gatcct ,3 EPD格式和PDB数据格式: (图4)问题:自己设计一个检索路径。,第三章 序列比对,用户提交
20、一个核酸或蛋白质序列,同指定数据库的全部序列做比较,寻找一个得分最高(或代价最小)的比对。通过相似序列的种类和功能,确定其种类和功能。 序列比对的基本思想基于一条分子生物学规则:当两个分子享有相似的序列时,由于进化关系和物理化学限制,它们将很有可能具有相似的三维结构和生物学功能。,一 序列比对策略:分两种(图5) 1 最简单的操作:提交一个核酸或蛋白质序列,同一级数据库的序列做比较,人工判断同源性。基本原则:寻找一个最佳对齐方式。 2 基于知识的预测:将已知样本抽象成代表序列-结构或序列-功能相关性的经验规则,由其判断同源性(如motif库)。此方法的首要任务是找出可以扩展到结构和功能性质的序
21、列特征。,两条序列相似程度的量化表示:相似度(表示相似程度的函数);距离(表示不相似程度的函数,有海明距离和编辑距离) 代价(cost)或权重(weight):w(a,a)= 0w(a,b)= 1 (aw(a,-)= w(-,b)= 1 得分(score):p (a,a)= 1p (a,b)= 0 (ab)p (a,-)= w(-,b)= -1,例1:两条字符串AIMS和AMOS的最佳对齐方式A I M SA MOS 例2:两个氨基酸序列ARRSG和ARKTVG。ARRS G ARKTVG,二 算法:,1 点阵分析:用两条序列为X和Y轴构建二维矩阵,用点表现两条序列的相似部分。点所包含的片段长
22、度叫窗口,匹配长度叫相似度阈值。 2 动态规划算法:最优对位排列方法对两个序列a=a1a2an和b=b1b2bn,当S=S(a1a2ai,b1b2bi)时有:Sij= maxSi-1, j-1+s(ai , bj),max (Si-x, j+Wx), max(Si, j-y+Wy)Sij:ij位置的分值;s(ai , bj): Sij的打分分值; Wx :长度为x的空位(间隔)罚分。,蛋白质打分矩阵:PAM1矩阵:根据71组相似性在85%以上的蛋白质序列中的1572种变化来估计氨基酸在蛋白质进化中被替换的预期频率。设为表现每108年一个突变的替换频率(假定每一个特定位点的每一个变化都是独立的)
23、。不同的PAM 矩阵可应用于不同相似性水平序列比对。例:PAM 250、PAM120、 PAM80和PAM60分别用于1427%、40%、50%、和60%相似性的序列比对。 PAM250由PAM1自乘250次产生,代表25亿年中250%的预期变化水平。(PAM250的矩阵,图7),打分矩阵:,BLOSUM矩阵:在有500个蛋白质家族的数据库(PROSITE)中针对2000个保守氨基酸模式进行替换频率鉴定。具有60%同一性的模式聚在一起构造一个矩阵就是BLOSUM60,依此类推。PAM模型可用于寻找蛋白质的进化起源,BLOSUM模型可用于发现蛋白质的保守域。 核酸打分矩阵: PAM矩阵单位矩阵:
24、相同碱基为1,不同为0。转换-颠换矩阵:相同碱基为正1分,转换为-1分,颠换为-5分。,在不知道序列间的相似性大小时,需用H(相对平均信息量)判断选择合适的矩阵。一般来说,若其他因素相同,H值高的合适。20 iH=qij*Siji=1 j=1q:每个氨基酸对出现的频率,S:每个氨基酸对的分值(以log2为单位,称比特bit)。空位罚分:wx=g+rx 或 wx=g+r( x 1) 。g:空位窗,单个空位的罚分;r:空位扩展罚分,多个空位的追加罚分;x:空位长度。,A 全局比对:全局比对是两条序列从头到尾的比对,有Needleman-Wunsch算法。第一步:用两条序列为X和Y轴构建二维矩阵,矩
25、阵中只有元素S0,0=0,从S0,0开始,对每一个位点赋值。赋值由出发点的分值+打分(罚分)组成。在所有路径中选分最高的。第二步:当矩阵中所有位点的赋值完成后,从最高分值位点回溯,找出的分值最高的路径就是最优化的序列对位排列方式。(图6),B 局部比对:是一条序列的片断与一条完整序列之间的比对,有Smith-Waterman算法。对于矩阵中所有j,令D0,j=0,对于矩阵中所有i,令D0,i=0,就可能实现两条序列的局部比对。这对于在由多个区域组成的序列中发现多个匹配有用。 C 高分值片段对(HSP)判断:P(Sx)=1-exp(-Kmne-x); X:片段长度。P(Sx)是最大片段的分大于X
26、的概率。 显著性评价:E(S)=log(Kmn)/E:期望分值(序列最长匹配的期望值);K:错配数;m和n:序列长度; = loge(1/p)。,3 散列算法:不是比较两个序列中单个的残基,而是搜索匹配序列模式或k-串。在该方法中,需要为每个序列建立一个查询表来标明每个长度为k的单词(k-串)的位置。 每个单词在两个序列中的相对位置可用第二个序列中的位置减去第一个得到。k-串长度由用户指定。 例:在二个序列中查找长度为3的k-串 位置 1 2 3 4 5 6 7 8 9 10 11 序列1 n c s p t a 序列2 a c s p r k,Position in offset序列1 序列
27、2 序列2-序列1a 6 6 0c 2 7 5k - 11 n 1 -p 4 9 5r - 10s 3 8 5t 5 - 快速发现一个可能的对位排列 序列1 n c s p t a序列2 a c s p t a,三 序列搜寻工具及其应用:,1 BLAST(Basic Local Alignment Search Tool):基本局域联配搜寻工具,将所查询的序列打断成为许多小序列片段(叫做字“W”),然后用小序列片段逐步与数据库序列进行无空隙比对。挑出分值大于阈值T的所有相似片段。对目标序列和挑出的数据库序列进行无空隙局部比对。从字开始向两边延伸。用统计置信度检验找到HSP的组合。E-value
28、(expect value):E=mn2-Sm:目标序列的有效长度n:数据库的有效长度(总碱基数)S :标准比值(bit score)。,:前期加工分值,R-mnK S=ln2 和K是正规化参数R:前期加工分值(raw score)R=aI+bX+cO+dG a:对每个完全匹配的加分,I:完全匹配的个数 b:对每个错配的加分,X:错配的核苷酸数 c:每开发一个gap的罚分,O: gap的数目 d: gap中每个“-”的罚分,G:总的 “-”的数目,2 FASTA:对角线方法,原理基于散列算法3 比对步骤: 比对基因:选择megaBLAST、数据库,选择滤过程序,如滤过低复杂度区域(low co
29、mplexity region,LCR)即重复元件;选择相似度/字长(SCORES/ALIGN ) 、空位设置(GAPOPEN)、空位扩展(GAPTEXT)。设定E的阈值(S,缺省值为10)。 比对蛋白质:选择BLASTp、数据库,选择滤过程序,设定E的阈值(缺省值为10)。 通常先用BLAST,结果不理想时再用FASTA。 应先做蛋白质,再做核酸的序列比较。,序列比对结果:最佳匹配序列描述 所使用程序的描述、版本及相关信息, 所要检索的序列长度, 所要检索的数据库信息,包括序列记录数和字符数图形化的检索结果Score E Sequences producing significant ali
30、gnments: (bits) Value gi|576838|gb|L37747.1|HUMLAM11 Homo 900 0.0 gi|18854963|AC093532.2| Homo sapiens 862 e-167 Query: 616 gag gaannnnnnngtaata 675| | | | | | | | | | | | Subjct: 616gag gaat t t t t t t gtaata 675,例:假肥大性肌营养不良症(DMD)基因分析DMD是一种隐性遗传疾病(付图10.2)。前期实验工作证明该疾病是X和6号染色体重组所至。在重组部位找到引起DMD的基因/蛋白质
31、dystrophin。 Dystrophin 在连接细胞骨架与外骨架上起着重要作用。通过BLAST2搜索,发现另一种蛋白utrophin,其与dystrophin有一个高度保守的序列DVQKKTFTKW,该序列参与形成螺旋。通过免疫定位,显示utrophin位于骨骼肌中,并且聚集在神经-肌肉接点处。到目前为止,还没有发现任何一种由utrophin引起的疾病,使引入utrophin作为治疗DMD的手段被考虑。(付图10.3-10.8),多序列比对的目标是发现多条序列的共性。 应用于: (1)基因组测序; (2)提供相似区域的信息; (3)揭示结构和功能的关系; (4)预测相同或不同有机体的相似家
32、族或同一类群的其他成员。,四 多序列比对,1 全局比对 (1)逐对加和(sum-of-pairs, SP)方法三条序列A、B、C,分别进行A-B、A- C、B-C比对,产生三个二维距阵,寻找其中的最优排列。计算SP函数(一列中所有字符对得分之和)k-1 kSP-score(c1,c2,ck)=p(ci,cj)i=1 j=i+1(c是列中的字符;k是序列个数;p是相似性打分函数。)加和所有列的得分。该方法比对的序列不能太多。程序:MSA(www.psc.edu/),(2)动态规划算法首先使用动态规划法获得多重排列,从最相关序列开始,逐步叠加相关性小的序列。程序: CLUSTALW(图) 主要步骤
33、:A 对所有序列进行比对;B 生成系统发生树;C 通过加权,依次排列序列。 (3)其他方法:聚类方法;构树方法。,2 序列中的局部比对: (1)可以鉴定排列中高度保守的部分并产生一类称为概型(profile)的记分矩阵。概型由更像小的多重比对的列构成,包括匹配、错配、插入和缺失。可用于寻找一个可能与之匹配的目标序列。程序:GCG软件包中的PILEUP (2)区块分析:区块(block)也是在多重比对中代表一个保守区域。与概形不同之处在于序列中缺乏插入和缺失的位置。(BLOCKS) (3)基序搜索: (EMOTIF),第四章 在系统发生分析中的应用,进化树:有一系列节点和分支组成。每个节点代表一
34、个分类单元(物种或序列)。一般情况下,外部节点代表实际观察到的分类单元,内部节点为分支点,他代表了进化事件发生的位置,或代表分类单元进化历程中的祖先。进化树类型:二元树,无根树,有根树。 直系同源:不同物种之间拥有共同的功能的基因。 旁系同源:在同一生命体中,因复制过程中发生歧异而产生的功能不同的基因。 蛋白质超家族:具有某种共同结构域的所有分子组成的分子集合。,分子进化论:20世纪60年代,Zucherkandl等发现某一在不同物种间的氨基酸取代数与所研究物种间的分歧时间接近正线性关系,进而将分子水平的这种恒速变异称为“分子钟”。支持分子钟存在的证据来自免疫学的定量比较。但分子序列证据与化石
35、证据在人类起源时间上存在差异。分子进化原则:1) 每个位点进化速率恒定;2) 进化速率=突变替换数/每位点/每年;3) 破坏小的比破坏大的突变进化频繁;4) 基因复制在基因获得新功能前发生。,建树步骤,(1)分子序列或特征数据的分析; (2)进化树构造; (3)结果检验。建树算法应用的分子数据分两类: (1)距离数据。由相似度打分的比对,需转化为距离:d(i,j)=1-(S(i,j)-Sr(i,j)/(Smax(i,j)- Sr(i,j),S (i,j):序列i和j各个比对位置得分的加权和; Sr (i,j):序列i和j随机化后的比对得分的加权和; Smax(i,j):序列i和j所有可能比对的
36、最大值。两个序列归一化距离的值处于0和1之间,当两个序列完全一致时,距离为0;当两个序列差异很大时,距离接近于1。 (2)离散特征数据:能够表现序列特征的数据。分为:二态特征:即具有和不具有,常用0和1表示;多态特征:具有两种以上可能的状态。,1 基于距离的方法:用距离矩阵描述。 常用距离方法: (1)连锁聚类方法和非加权分组平均方法(除权配对法,UPGMA) :从最近的两个树叶开始,定义一个新节点。不断重复,最终产生树根。前提是替换速度均等且一致。 例:序列A ACGCGTTGGGCGATGGCAACB ACGCGTTGGGCGACGGTAATC ACGCATTGAATGATGATAATE
37、ACACATTGAGTGATAATAAT 找出一个序列变成另一个序列所需的步骤数nAB=3,nAC=7,nAD=8,nBC=6,nBD=7,nCD=3,构建距离表 A B C DA - 3 7 8B - - 6 7C - - - 3D - - - -根据序列之间的距离构建树连锁聚类法:(A)初始化:分别用n个叶节点代表每个类(分类单元的集合);(B)执行下列循环:寻找具有最小距离dxy的两个类x,y;建立一个新的聚类z,以z为一个新的内部节点, z到 x和y的分支的长度为d(x,y )/2;,按 d(z,u)=(d(x,u)+d(y,u)/2 计算新的分类到其他类的距离;从距离矩阵中删除与x和
38、y相应的行和列,加入与z相应的行和列。从头循环,直到仅剩一个类为止。UPGMA:一个新类到其他类(u)之间的距离就是简单的原距离平均值;计算:d(x,y),u=(nx/(nx+ny)dx,u+(ny/(nx+ny)dy,un是每个类的元素个数。2 1A 4 CB D1 2,(2)距离变换法:考虑了不同家族的不同进化速率,利用外部参考种帮助确定正确的树。设D为外部参考种,其就作为变换其他物种之间距离的参考:dij=(dij-diD-djD)/2+dD (i,j=A,B,C)dij是i和j之间的变换后距离,dD是利用外部参考种与全体内部物种之间的平均距离。在此, dD =(dAD-dBD-dCD)
39、/3。 (3)邻位相连法(NJ):在进行类的合并时,不仅要求待合并的类是相近的,同时,还要求待合并的类远离其他的类。,(1)简约法(MP) 例:根据4个已排列序列寻找正确的无根树 序列位点和性状 Taxa 1 2 3 4 5 6 7 8 91 A A G A G T G C A2 A G C C G T G C G3 A G A T A T C C A4 A G A G A T C C G 寻找信息位点(每个特征必须在至少两个分类群中相同的位点),为5,7,9。,2 基于特征数据的方法,构建信息位点可能的树 位点5的树1 树2 树3 分类群1 分类群3 分类群1 分类群2 分类群1 分类群2G
40、 A G G G GG * A * A A * * A A *G A A A A A 分类群2 分类群4 分类群3 分类群4 分类群4 分类群3树1中群1 和群2有共同祖先,群3和群4有共同祖先,变化数为1;树2和树3变化数为2。 将每个树每个信息位点的变化数相加,挑出变化数最小的树为最优树。,(2)最大似然法(ML):对每个可能的进化位点分配一个概率,然后找出概率最大的进化树。建树策略(图10)。确定树根(根据外组或中点)。进化树的可靠性检验 (1)使用不同的建树方法 (2)自举(自展)检验:替换或重组序列。 (3)参数检验:对两棵树进行乘数比较。,第五章 信息生物学在基因组构建中的应用,人
41、类基因组工作已完成序列图谱测定,进一步需要确定遗传图谱和基因图谱。 遗传图谱:表现基因组的遗传特点。基因组内基因及其专一的多态性DNA标记相对位置的图谱。第一代标记:限制性片段长度多态性(RFLP);第二代标记:微卫星DNA(MS,同时也是物理图谱的标志);第三代标记:单核苷酸多态性(SPN)。 基因图谱:表现核酸序列中的基因、调节元件、重复序列以及各种重排结构。,1 从基因组序列中寻找编码蛋白质的基因 (1)通过EST寻找新基因:即通过合成mRNA 3端片段的cDNA寻找EST,通过构建包含这些EST区的重叠群,再进行ORF的判定以及相关 蛋白质结构域和模体的识别。另外还可以寻找与这个EST
42、重叠群对应的基因组DNA(gDNA )序列,从而明确这个cDNA的基因结构,包括外显子和内含子的电子定位。 (2)相似序列的数据库搜索:对于一个未知功能的序列,一个匹配的基因可以给出功能的线索;一个已知功能的序列也可以用于搜索具有同样功能的基因。,一 人类基因克隆计划和基因的识别和鉴定,原核生物的基因预测方法在一个片段中寻找一个基因:寻找较高保守性的序列(代表启动子区域,在一段未知序列上具有相同的顺序和间隔。图9-2),对其后序列进行ORF分析。对一个片段的全面预测:建立一个大肠杆菌的隐马尔可夫模型,然后扩展到包括多基因以及基因间的序列。这一模型能检查一个未知基因组成的序列并寻找基因,即一组标
43、明氨基酸的密码子,两侧是起始和终止密码子。模型的可靠性依赖于基因起始和终止信息的准确性。,真核生物的基因预测方法1)简单方法:用所有可能的阅读框对序列进行翻译,并应用BLASTX或FASTX程序比较翻译序列与蛋白质数据库。ORF预测的可靠性检验:(1)密码子偏好性:同一ORF中同义密码子的第3个碱基倾向相同,既同一生物有在同义密码子中选择某些密码子的特性。ORF的偏好性表(CUSP), bioweb.pasteir.fr/seqanal/interfaces/cusp.html,偏好性分析(SYCO), 图12-5bioweb.pasteir.fr/seqanal/ interfaces/sy
44、co.html(2)同源比对:将ORF翻译成氨基酸序列,然后进行数据库比较,如果发现一个或多个显著相似的序列, ORF的可信度高。(3)寻找剪切位点: NetGene2, www.cbs.dtu.dk/services/NetGene2/ SpliceView, r.it/webgene/wwwspliceview.html(4)寻找转录终止信号: Hcpolya,r.it/webgene/www.HC_polya.html(5) 确定核小体位点,2)其他方法:(1)寻找CpG岛:通常出现在持家基因或频繁表达的基因启动子周围。其中80%的人类基因的转录起始位点前存在CpG岛。工具1:EMBL的
45、CpGPlot/CpGReport/Isochorewww.ebi.ac.uk/emboss/cpgplot/ CpGPlot :以图示(图9-3)形式显示分析结果;Obs/Exp、GC百分含量、 CpG岛位置CpGReport:以报表形式显示分析结果; 包含CpG岛的位置、大小、 C+G总量和CG百分含量(图9-4)Isochore:以图形方式标出不同的等线体的CG含量,工具2: GpC Island Grapher:tiamat.kaist.ac.kr/util/cgi-web/(2) 寻找启动子与转录因子结合位点:图12-1TRES, bioportal.bic.nus.edu.sg/t
46、res/神经网络启动子预测, www.fruitfly.org/seq_tools/promoter.html (3)寻找其他顺式元件: Cister, zlab.bu.edu/mfrith/cister.shtml 3)基因组装:将预测出来的外显子组装成为一致的基因模型。剪切给体(donnor)位点:内含子的5端 gt剪切受体(acceptor)位点:内含子的3端 ag,基于动态规划的组装方法组装形成的候选基因需满足下列条件: (1)所有外显子加起来的长度是3的整倍数; (2)在各个外显子内部(除最后一个外显子的最后一个密码)没有终止密码; (3)第一个内含子-外显子边界(i0,e1)是翻译
47、起始密码,而最后一个外显子-内含子边界(en,in)是终止密码。包含完整基因的序列满足条件 (1) (3),包含不完整基因的序列不满足条件 (1) 或 (3)。完整基因的组装:把标明候选外显子和内含子的序列构造成位点图。然后通过打分处理,寻找最优路径(图10-3)。,基于剪切比对的组装方法首先通过分析所有可能的剪切受体位点和供体位点,构建一组候选的外显子;然后,进一步分析候选外显子,探查所有可能的外显子组合,寻找一个与已知序列(如mRNA、蛋白质)最匹配的组合。图10-4,2 从一个提交的未知序列中预测基因:1)判定载体污染污染:被检测序列含有外源序列,主要有载体、接头和引物、转座子和提取纯度。主要方法:在载体数据库中做相似性搜索,限制性酶切位点搜索。工具:VecScreen,www.ebi.ac.uk/blastall/vectors.html 2)屏蔽重复序列:新序列自身的单位距阵比对,用于找出互补、转座、重复等结构。,