1、实例: 对GFAP人胶质纤维酸性蛋白 (glial fibrillary acidic protein)进行结构与功能预测,网址:www.expasy.org,点击UniPro,GFAP,命名与起源,蛋白质属性,注释,OMIM,ISOFORM 比对信息,序列注释(特征),多态性,SNP位点,全序列比对,三维结构分析,蛋白与蛋白相互作用数据库,功能预测及家族注释,Protsite数据库是基于对蛋白质家族中同源序列多重序列比对得到的保守性区域,这样区域通常与生物学功能有关,例如酶的活性位点、配体或金属结合位点等。因此,Prosite数据库实际上是蛋白质序列功能位点数据库。通过对Prosite数据库
2、的搜索,可判断该序列包含什么样的功能位点,从而推测其可能属于哪一个蛋白质家族。Prosite数据库实际上包括两个数据库文件,一个为数据文件即Prosite,该文件给出了能进行匹配的序列及序列的详细信息。另一个为说明文件 PrositeDoc,PrositeDoc说明文件中给出该序列模式的生物学功能及其文献资料来源。Prosite数据库使用正则表达式来表示序列模式,例如:GSK-F-x(2)-LIVMF-x(4)-RKEQA-x(2)-RST-x-GA-x-KN-P-x-T.这里,方括号中为可选残基,如第一个方括号GSK中3个残基中甘氨酸G、丝氨酸S和赖氨酸L中的任意一个均可出现。x(2)表示可
3、以有两个任意残基。 中列出不许出现的氨基酸。因此,序列片段GFxxLxxxxRxxRxGxKPxT是其中一种可能的模式。,如何根据蛋白质位点和序列模式(二次数据库)来鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族?,序列比对,得到同源蛋白,跨膜区预测,C-erBb2蛋白的跨膜区预测,总结:GFAP为一中等分子量的酸性蛋白,分子中含有较多的Glu,每个分子大约带9个负电荷。该蛋白无跨膜区域,并且亲水,不是膜蛋白。GFAP是一种结构蛋白,属于IF家族,主要参与中间纤维的构成,在神经元内环境的维持和血脑屏障中起着重要作用。到目前为止,该蛋白的空间结构尚未解析出来,有待于进一步研究。,作业,ME
4、LAALCRWGLLLALLPPGAASTQVCTGTDMKLRLPASPETHLDMLRHLYQGCQVVQGNL ELTYLPTNASLSFLQDIQEVQGYVLIAHNQVRQVPLQRLRIVRGTQLFEDNYALAVLDNG DPLNNTTPVTGASPGGLRELQLRSLTEILKGGVLIQRNPQLCYQDTILWKDIFHKNNQLA LTLIDTNRSRACHPCSPMCKGSRCWGESSEDCQSLTRTVCAGGCARCKGPLPTDCCHEQC AAGCTGPKHSDCLACLHFNHSGICELHCPALVTYNTDTFESMPNPEGRYTFGASCVTA
5、CP YNYLSTDVGSCTLVCPLHNQEVTAEDGTQRCEKCSKPCARVCYGLGMEHLREVRAVTSAN IQEFAGCKKIFGSLAFLPESFDGDPASNTAPLQPEQLQVFETLEEITGYLYISAWPDSLP DLSVFQNLQVIRGRILHNGAYSLTLQGLGISWLGLRSLRELGSGLALIHHNTHLCFVHTV PWDQLFRNPHQALLHTANRPEDECVGEGLACHQLCARGHCWGPGPTQCVNCSQFLRGQEC VEECRVLQGLPREYVNARHCLPCHPECQPQNGSVTCFGPEADQCVACAHYKDP
6、PFCVARC PSGVKPDLSYMPIWKFPDEEGACQPCPINCTHSCVDLDDKGCPAEQRASPLTSIISAVVG ILLVVVLGVVFGILIKRRQQKIRKYTMRRLLQETELVEPLTPSGAMPNQAQMRILKETEL RKVKVLGSGAFGTVYKGIWIPDGENVKIPVAIKVLRENTSPKANKEILDEAYVMAGVGSP YVSRLLGICLTSTVQLVTQLMPYGCLLDHVRENRGRLGSQDLLNWCMQIAKGMSYLEDVR LVHRDLAARNVLVKSPNHVKITDFGLARLLDIDETEYHADGGKVPIKW
7、MALESILRRRFT HQSDVWSYGVTVWELMTFGAKPYDGIPAREIPDLLEKGERLPQPPICTIDVYMIMVKCWM IDSECRPRFRELVSEFSRMARDPQRFVVIQNEDLGPASPLDSTFYRSLLEDDDMGDLVDA EEYLVPQQGFFCPDPAPGAGGMVHHRHRSSSTRSGGGDLTLGLEPSEEEAPRSPLAPSEG AGSDVFDGDLGMGAAKGLQSLPTHDPSPLQRYSEDPTVPLPSETDGYVAPLTCSPQPEYV NQPDVRPQPPSPREGPLPAARPAGATLERPKTLSPGKNGVVKDVFAFGGAVENPEYLTPQ GGAAPQPHPPPAFSPAFDNLYYWDQDPPERGAPPSTFKGTPTAENPEYLGLDVPV,1、对该段序列进行同源性搜索 2、对该段序列进行基本性质分析: 蛋白质的氨基酸组成、 等电点、相对分子质量、亲水性、 疏水性、消光系数、信号肽、跨膜区域等。3、分析该段序列的MOTIF4、对该段序列进行三维结构的分析5、分析该序列所代表蛋白的修饰情况、所参与的代谢途径、相互作用的蛋白,以及与疾病的相关性。,