1、Protein Sequence Analysis and Structure Prediction,Dr. ZOU, Ling-Yun Department of Microbiology,Outline,20 amino acids - the building blocks,helices,Ala, Glu, Leu, Met:出现频率高 Pro, Gly, Tyr, Ser: 出现频率低,-sheets,Coils,-domain : 4-helix bundles,Beta-domain Up-and-down sheets and barrel,aDomains,为什么要研究蛋白质
2、结构?,生物体的许多重要功能由蛋白质完成 已知序列的蛋白质数量与已知结构的蛋白质数量的差距正在拉大 分析蛋白质结构有助于药物设计研究 有助于了解蛋白质相互作用,这对于生物学、医学和药学都非常重要 ,Sequence Swiss-Prot:468851 (2009.5) Structure PDB:57835 (2009.5),蛋白质序列(黄)和结构(红)数量比较,Experimental Methods to Detect Structures,Two empirical methods for revealing positions of atoms in 3-D: X-Ray Crysta
3、llography Resolution: 0.1nm Determining most structures: 87% in PDB Difficult to grow a crystal sometimes,Nuclear Magnetic Resonance (NMR) Resolution: 0.15 nm Determining about 13% structures in PDB Small proteins only ( 250 residues) Need samples of high purity,.-Gly-Ala-Glu-Phe-.,FUNCTION,Problems
4、 of Predicting Protein Structure,Bioinformatics,.-Gly-Ala-Glu-Phe-.,FUNCTION,蛋白质结构数据库,PDB (Protein Data Bank): 主要的蛋白质结构库 http:/www.rcsb.org/pdb/home/home.do MMDB (Molecular Modeling Database): 分子模型数据库 http:/www.ncbi.nlm.nih.gov/sites/entrez?db=structure PDBe (Protein Data Bank in Europe ): 大分子的相互作用和
5、结合位点 http:/www.ebi.ac.uk/pdbe/,PDB,MMDB,蛋白质结构可视化工具,Swiss PDBViewer,界面友好、可同时分析几个PDB文件、可叠加起来分析结构类似性 可与Swiss-Model服务器连接,从软件直接连到Swiss-Model服务器进行理论蛋白立体结构构建。 http:/spdbv.vital-it.ch/,RasMol,读取PDB格式文件,显示生物大分子三维结构图像的软件; 系统的要求很低,应用广,可由Unix、Windows及Macintosh 平台支持运行。 界面简单,基本操作简单,运行非常迅速。 http:/www.openrasmol.or
6、g/,Cn3D,含义为:“See in 3-D”,是一个生物分子的三维结构、序列以及序列比对结果的可视化工具。 读取MMDB数据库的数据文件 特定结构查找、结构比对 http:/www.ncbi.nlm.nih.gov/Structure/CN3D/cn3d.shtml,蛋白质序列分析的主要内容,氨基酸组成分析 氨基酸含量统计 Sequence Logo 图 理化性质分析 预测等电点(PI) 计算分子量(molecular weight, Mw) 分析疏水性(hydrophobicity) 特殊位点预测:信号肽、跨膜区、 ,氨基酸组成分析,氨基酸含量统计氨基酸对含量统计,Sequence Lo
7、go,理化性质分析:亲/疏水性分析,Adapting the window size to the size of the membrane spanning segment makes the picture easier to interpret,物理化学性质分析软件,ExPaSy ProtParam 计算蛋白质氨基酸组成、等电点、分子量等 http:/www.expasy.ch/tools/protparam.html WebLogo 绘制Sequence logo图 http:/weblogo.berkeley.edu/ TMHMM 计算膜蛋白的跨膜区 http:/www.cbs.dt
8、u.dk/services/TMHMM/,http:/www.expasy.ch/tools,http:/www.cbs.dtu.dk/services/TMHMM/,Secondary Structure Prediction Problem,How to predict the SSE from the sequence,?,Secondary Structure Elements,Review: prediction of exon region in DNA,Secondary Structure Prediction,Can we use the similar method? 1.
9、 Chou-Fasman predictions: Empirical 2. Garnier, Osguthorpe and Robson (GOR): HMM 3. David T. Jones: PSSM 4. Frishman, Argos: Nearest neighbor methods 5. Sujun Hua: Support vector machine,Chou-Fasman,预测三种主要的二级结构:alpha-helix, beta-sheet,Coil 训练数据:15个已知构象的蛋白质结构,共2473个氨基酸残基 定义一个蛋白质构象参数 (protein conforma
10、tional parameters):不同氨基酸残基在不同二级结构中的重要性 P, P, Pc,The Preference of Amino Acid,Chou &Fasman,1974,Bio-chem,Judge rule,-helix Search the helix core along the sequence. If at least 4 residues in the sequential 6 are prefer -helix ( pi1), find a helix core. Extend the core, until the average preference sc
11、ore of this segment is less than 1. Similar method to judge the -sheet.,Neural Network Methods to Predict SSE,The highest accuracy using the traditional method is about 60%. Interaction between residues is an important factor determining the secondary structure. Using neural network method to consid
12、er this interaction can improve the accuracy to 65%.,蛋白质序列综合分析软件Anthepro,3D Structure Prediction,Tertiary Structure Prediction Methods,Problem,GICPRFAHVIENLLLGTPSSYETSLKEFEPDDTMKDAGMQMKKVLDSLPQTTRENIMKLTEKIVKSPLCM,?,Using physical force( how protein folding) Ab initio method (从头计算) Using evolution i
13、nformation( search similarity) Homology modeling (HM, 同源建模) Fold Recognition (FR, 折叠识别)From easy to hard: HM FR Ab initio,Tertiary Structure Prediction Methods,Homology modeling,概念:对于一个未知结构的蛋白质,找到一个已知结构的同源蛋白质,以该蛋白质的结构为模板,为未知结构的蛋白质建立结构模型。 依据:任何一对蛋白质,如果两者的序列等同部分超过30%,则它们具有相似的三维结构,即两个蛋白质的基本折叠相同,只是在非螺旋和
14、非折叠区域的一些细节部分有所不同。,搜索已知三级结构的同源蛋白质序列 (模板) PSI-BLAST multiple sequence alignment 选取与给定序列相似性最高的结构作为模板 将氨基酸残基替换到结构模板中对应的位置上,降低自由能,Homology modeling:步骤,Homology modeling:Work well,SWISS-MODEL,fully automated web-server for protein structure modelling developed in 1993 nowadays the most widely-used free we
15、b-based automated facility,Are there problems with SWISS-MODEL?,Results must be concidered with care procedure is non-experimental no human intervention during model building Chosen template affects the results the more the template and the target sequence share identity the more accurate the result
16、s will be,本课小结,蛋白质序列和结构的特点:分析的基础 蛋白质三维结构可视化:观察结构模型 蛋白质序列分析:理化性质计算;特征信号预测 蛋白质结构预测:生物信息学应用,思考与作业,(1) 从UniProt/SwissProt数据库中随机抽取10条氨基酸序列,得到FASTA格式文件。 (2) 利用ANTHEPROT、Compute pI/Mw、SignalP、TMHMM等工具分析这十条氨基酸序列的理化性质、基本性质等,给出归纳总结报告。 (3) 综合上述的归纳总结,给出这10条氨基酸序列的功能描述信息,并与UniProt/SwissProt中的注释信息进行比较分析,得出一定结论。,Thank You !,