1、1,1,梅艳珍 南京师范大学生命科学学院 18951797606 ,基因组学研究功能基因分析,现代生物学实验技术,2,要求: 掌握常用的序列比对工具 能构建进化树 能够预测蛋白质的二级结构、疏水区、跨膜区等 能够进行简单的同源建模分析 了解KEGG数据库的检索,3,序列比对BLAST应用,4,同源性(homology):指从一些数据中推断出的两个基因或蛋白质序列具有共同祖先的结论,属于质的判断。 A和B的关系上,是同源序列,或者非同源序列两种关系。而说A和B的同源性为80都是不科学的。 相似性(similarity):是指一种直接的数量关系,如部分相同或相似的百分比或其它一些合适的度量。比如说
2、,A序列和B序列的相似性是80,或者4/5。,生物序列的同源性,序列间相似性越高,它们是同源序列的可能性就更高,5,Blast程序评价序列相似性的两个数据,Score:使用打分矩阵对匹配的片段进行打分,这是对各对氨基酸残基(或碱基)打分求和的结果,一般来说,匹配片段越长、 相似性越高,则Score值越大。 E value:在相同长度的情况下,两个氨基酸残基(或碱基)随机排列的序列进行打分,得到上述Score值的概率的大小。E值越小表示随机情况下得到该Score值的可能性越低。 我们在获得一个Blast结果时需要看这两个指标。如果Blast获得的目标序列的Score值越高并且E-value越低表
3、明结果越可信,反之越不可信.,6,主要的BLAST程序(功能),7,1.登陆blast主页http:/www.ncbi.nlm.nih.gov/BLAST/,组装的基因组序列库,基本blast,特定的BLAST,所有的 BLAST基 因数据库,8,8,核酸数据库中 比对核酸序列,蛋白质数据库中 比对蛋白质序列,蛋白质数据库中 比对核酸序列,蛋白质数据库中 比对核酸序列,核酸数据库中 比对蛋白质序列,9,Fasta格式文件,10,10,什么是fasta格式?怎么建立? 新建一个txt文本文件,命名如: bph.txt Fasta的格式: 序列名称 序列,11,12,12,1.序列信息部分,填入查
4、询(query)的序列,序列范围 (默认全部),选择搜索数据库,如果接受其他参数默认设置,点击开始搜索,13,13,去冗余GenBank编码序列PDB + SwissProt + PIR + PRF,14,常用的检索数据库,14,15,以下列蛋白序列为例,进行BLAST搜索:P1 MSDNGPQSNQRSAPRITFGGPTDSTDNNQNGGRNGARPKQRRPQGLPNNTASWFTALTQHGKEELRFPRGQGVPINTNSGPDDQIGYYRRATRRVRGGDGKMKELSPRWYFYYLGTGPEASLPYGANKEGIVWVATEGALNTPKDHIGTRNPNNNAATV
5、LQLPQGTTLPKGFYAEGSRGGSQASSRSSSRSRGNSRNSTPGSSRGNSPARMASGGGETALALLLLDRLNQLESKVSGKGQQQQGQTVTKKSAAEASKKPRQKRTATKQYNVTQAFGRRGPEQTQGNFGDQDLIRQGTDYKHWPQIAQFAPSASAFFGMSRIGMEVTPSGTWLTYHGAIKLDDKDPQFKDNVILLNKHIDAYKTFPPTEPKKDKKKKTDEAQPLPQRQKKQPTVTLLPAADMDDFSRQLQNSMSGASADSTQA,16,17,18,18,基因名,来源物种,一致程度, 登录号,19,所选
6、序列,下载序列,20,Cluster比对,21,Clustalx的工作界面 (多序列比对模式),22,Clustal的工作原理,Clustal输入多个序列,快速的序列两两比对,计算序列间的距离,获得一个距离矩阵。,邻接法(NJ)构建一个树,根据进化树,渐进比对多个序列。,23,Clustalx的输出结果,.aln格式文件 这个文件是默认输出,可以转换成各种格式,而且很多软件都支持这种格式。 .dnd格式文件 引导树。就是根据两两序列相似值构建的一个指导后面多重联配的启发树 不能做进化分析。进化分析要考虑的所有同源位点的一个综合效应,因此应该用.aln格式文件专门做进化分析。,24,多序列比对实
7、例,输入文件的格式(fasta):KCC2_YEASTNYIFGRTLGAGSFGVVRQARKLSTN DMK_HUMANDFEILKVIGRGAFSEVAVVKMKQTGQVYAMKIMNK. KPRO_MAIZETRKFKVELGRGESGTVYKGVLEDDRHVAVKKLEN DAF1_CAEEL QIRLTGRVGSGRFGNVSRGDYRGEAVAVKVFNALD 1CSNHYKVGRRIGEGSFGVIFEGTNLLNN,不留空格,25,第一步:输入序列文件。,26,27,28,建议用treeview 打开outtree,然后可以编辑,29,30,建树软件-mega,31,ME
8、GA5可以识别fasta格式文件 将 17-RNASE1.fasta.txt 重命名为 17-RNASE1.fasta,建树软件-mega,32,33,ClustalW参数设置,34,多序列联配后结果,35,以.meg格式保存结果,36,回到MEGA主窗口 打开所保存的文件(.meg),37,点击按钮打开文件窗口,38,显示保守位点 显示变异位点,39,回到MEGA主窗口构建进化树,当前打开的文件,选择邻接法建树,40,选择Bootstrap检验,41,42,蛋白质二级结构预测,43,蛋白质结构为什么如此重要的?,氨基酸序列只有折叠成特定的空间结构才具有相应的活性和相应的生物学功能,DNA 序
9、列,蛋白质序列,蛋白质结构,转录&翻译,折叠,44,为什么要研究蛋白质结构?,生物体中许多重要的功能由蛋白质完成 分析蛋白质结构、功能及其关系是蛋白质组计划中的一个重要组成部分 分析蛋白质结构有助于药物设计研究 有助于了解蛋白质相互作用,这对于生物学、医学和药学都是非常重要,45,蛋白质二级结构,-helix (30-35%) -螺旋 -sheet / -strand (20-25%) -折叠 Coil (40-50%) 无规则卷曲 Loop 环 -turn -转角,46,46,蛋白质3D 结构,螺旋,折叠,环或转角,转角或卷曲,47,http:/pbio.dundee.ac.uk/www-j
10、pred/,48,JPred预测结果,螺旋,折叠,49,二级结构预测网站,PHD http:/cubic.bioc.columbia.edu/predictprotein/JPRED http:/pbio.dundee.ac.uk/www-jpred/PSIPRED http:/bioinf.cs.ucl.ac.uk/psipred/NNPREDICT http:/www.cmpharm.ucsf.edu/nomi/nnpredict.htmlChou and Fassman http:/fasta.bioch.virginia.edu/fasta_www/chofas.htm,50,预测蛋白
11、质的理化性质,51,部分预测工具,Compute pI/Mw(ExPASy) 计算蛋白序列的等电点和分子量 TGREASE 计算蛋白质序列疏水性工具 TMHMM 蛋白质跨膜区预测 More http:/www.expasy.org/tools/,52,http:/web.expasy.org/compute_pi/,等电点,分子量预测工具,53,54,http:/web.expasy.org/protscale/,55,TGREASE疏水性参数,高正值的氨基酸具有更大的疏水性而低负值的氨基酸具有更强的亲水性,56,57,蛋白质跨膜区预测(TMHMM),http:/www.cbs.dtu.dk/
12、services/TMHMM/,58,59,60,信号肽分析,61,SignalP软件2.0版(http:/www.cbs.dtu.dk/services/SignalP-2.0/)对信号肽分析。,62,信号肽的作用一般是帮助蛋白质穿膜用的,跟蛋白质的细胞定位有关系。,63,同源建模,蛋白质三维结构预测,64,3D预测是可能的,因为: 序列信息决定三级结构 序列相似性 (30%)倾向于结构相似性 3D预测是必须的,因为: DNA 序列 蛋白质序列 空间结构,65,66,67,蛋白质结构预测方法: 同源建模法(Comparative homology modeling) 依据蛋白序列与已经结构蛋
13、白比对信息构建3D模型折叠识别法(Threading fold recognition) 寻找与未知蛋白最合适的模板,进行序列与结构比对,最终建立结构模型从头预测法(Ab initio/de novo methods) 根据序列本身来从头预测蛋白质结构,68,同源建模基本原理:1、一个蛋白质的结构由其氨基酸序列唯一的决定。由一级结构,在理论上,足以获取其二级、三级结构。2、三级结构的保守型远远大于一级结构的保守型。 应用限制:模板蛋白和目标蛋白的序列一致性需要大于30%,69,SWISS-MODEL,SWISS-MODEL: 网址http:/swissmodel.expasy.org/ 非专业
14、人士应用最为广泛的一个在线建模服务器。 特点:简单、自动化、对学术团队免费。,Automated mode:自动模式,可以称为是最傻瓜的方式 提交自己的氨基酸序列+邮箱即可 适用:一致性较高时,70,71,邮箱,模型命名,氨基酸序列,72,73,KEGG数据库,74,http:/www.genome.jp/kegg/,75,特点,KEGG是一个整合了基因组、化学和系统功能信息的数据库。把从已经完整测序的基因组中得到的基因目录与更高级别的细胞、物种和生态系统水平的系统功能关联起来是KEGG数据库的特色之一。人工创建了一个知识库,这个知识库是基于使用一种可计算的形式捕捉和组织实验得到的知识而形成的
15、系统功能知识库。它是一个生物系统的计算机模拟。与其他数据库相比,KEGG 的一个显著特点就是具有强大的图形功能,它利用图形而不是繁缛的文字来介绍众多的代谢途径以及各途径之间的关系,这样可以使研究者能够对其所要研究的代谢途径有一个直观全面的了解。,76,77,78,79,甲硫醇,4-甲氧基-2-氧丁酸,80,某物质的特定代谢途径,双击可以查到酶或基因的序列信息描述,81,实验内容,实验材料:根据导师给定的或实验室相关课题,选择一种酶或基因,作为目标序列;若没有,从生化代谢途径中任选一个酶或基因。 实验要求: 采用Blast检索,获得不少于10条有相似度的序列,做成faster格式文件; 采用cluster X对上述序列进行序列比对,找出存在的保守区; 将比对所得到的序列采用treeview或mega做成进化树; 分析目标序列的二级结构,疏水区,跨膜区,将目标序列进行同源建模,获得三维结构; 根据KEGG代谢途径找到该目标酶或基因所在特定物种的代谢途径,82,82,谢谢各位!,