基因序列分析.doc-道客多多_道客多多docduoduo.com

资源描述

1、基因序列分析核酸和蛋白质序列分析在获得一个基因序列后，需要对其进行生物信息学分析，从中尽量发掘信息，从而指导进一步的实验研究。通过染色体定位分析、内含子外显子分析、ORF 分析、表达谱分析等，能够阐明基因的基本信息。通过启动子预测、CpG 岛分析和转录因子分析等，识别调控区的顺式作用元件，可以为基因的调控研究提供基础。通过蛋白质基本性质分析，疏水性分析，跨膜区预测，信号肽预测，亚细胞定位预测，抗原性位点预测，可以对基因编码蛋白的性质作出初步判断和预测。尤其通过疏水性分析和跨膜区预测可以预测基因是否为膜蛋白，这对确定实验研究方向有重要的参考意义。此外，通过相似性搜索、功能位点分析、结构分析、查

2、询基因表达谱聚簇数据库、基因敲除数据库、基因组上下游邻居等，尽量挖掘网络数据库中的信息，可以对基因功能作出推论。上述技术路线可为其它类似分子的生物信息学分析提供借鉴。本路线图及推荐网址已建立超级链接，放在北京大学人类疾病基因研究中心网站（http:/ ）,可以直接点击进入检索网站。下面介绍其中一些基本分析。值得注意的是，在对序列进行分析时，首先应当明确序列的性质,是 mRNA 序列还是基因组序列？是计算机拼接得到还是经过 PCR 扩增测序得到？是原核生物还是真核生物？这些决定了分析方法的选择和分析结果的解释。（一）核酸序列分析 1、双序列比对（pairwise alignment）双序列

3、比对是指比较两条序列的相似性和寻找相似碱基及氨基酸的对应位置，它是用计算机进行序列分析的强大工具，分为全局比对和局部比对两类，各以 Needleman-Wunsch 算法和 Smith-Waterman 算法为代表。由于这些算法都是启发式（heuristic ）的算法，因此并没有最优值。根据比对的需要，选用适当的比对工具，在比对时适当调整空格罚分（gap penalty）和空格延伸罚分（ gap extension penalty），以获得更优的比对。除了利用 BLAST、FASTA 等局部比对工具进行序列对数据库的搜索外，我们还推荐使用 EMBOSS 软件包中的 Needle 软件（ht

4、tp:/bioinfo.pbi.nrc.ca:8090/EMBOSS/），和 Pairwise BLAST （http:/www.ncbi.nlm.nih.gov/BLAST/）。以上介绍的这些双序列比对工具的使用都比较简单，一般输入所比较的序列即可。（1）BLAST 和 FASTA FASTA（http:/www.ebi.ac.uk/fasta33/）和 BLAST（http:/www.ncbi.nlm.nih.gov/BLAST/ ）是目前运用较为广泛的相似性搜索工具。这两个工具都采用局部比对的方法，选择计分矩阵对序列计分，通过分值的大小和统计学显著性分析确定有意义的局部比对。使用

5、FASTA 和 BLAST，进行数据库搜索，找到与查询序列有一定相似性的序列。一般认为,如果蛋白的序列一致性为 25-30%,则可认为序列同源。BLAST 根据搜索序列和数据库的不同类型分为 5 种（表 2），另外 PSI-BLAST 通过迭代搜索，可以搜索到与查询序列相似性较低的序列。其中 BLASTN、BLASTP 在实践中最为常用， TBLASTN 在搜索相似序列进行新基因预测时特别有用。使用 BLAST 时，先选择需要使用的 BLAST 程序，然后提供相应的查询序列，选择所比对的数据库即可。(2)Needle 和 Pairwise BLAST：其中 Needle 适用于蛋白质和 D

6、NA 序列，而 Pairwise BLAST 仅适用于 DNA 序列（3）相似性和同源性：必须指出，相似性（similarity）和同源性( homology)是两个完全不同的概念。同源序列是指从某一共同祖先经过趋异进化而形成的不同序列。相似性是指序列比对过程中检测序列和目标序列之间相同碱基或氨基酸残基序列所占比例的大小。经过比对，当相似性高于一定程度，可以推测序列可能是同源序列，具有一定同源性。 2、多序列比对和进化树在研究生物问题时，常常需要同时对两个以上的序列进行比对，这就是多序列比对。多序列比对可用于研究一组相关基因或蛋白，推断基因的进化关系，还可用于发现一组功能或结构相关基因之间的

7、共有模式（pattern）。最常用的多序列比对工具为ClustalW（http:/www.ebi.ac.uk/clustalw/），多用于比较蛋白序列。 ClustalW 用法：（1）输入：序列以 FastA 格式输入。（2）输出：除了以文本形式外，还可以通过 JalView 显示和编辑结果。此外，还可以另外使用 GeneDoc（常见于文献）及DNAStar 软件等显示结果。多序列比对的结果还用于进一步绘制进化树。3、ORF(Open Reading Frame) 分析从核酸序列翻译得到蛋白质序列，需要进行 ORF 分析，每个生物信息学分析软件包几乎都带有翻译功能。推荐使用 NCBI

8、的ORF Finder（http:/www.ncbi.nlm.nih.gov/gorf/gorf.html）软件或 EMBOSS 中的 getorf（http:/bioinfo.pbi.nrc.ca:8090/EMBOSS/）软件。ORF Finder 以图形方式，分为正链+1、2、3 和反链1、2、3 六个相位预测 ORF；Getorf 可指定预测 ORF 的长度下限和指定预测正反链。进行 ORF 分析虽然比较简单，但应注意以下几点：（1）序列的准确性：尤其是通过计算机拼接的序列，需要根据 EST 和基因组序列进行反复校正。（2）ORF 是否完整：看在 ORF 上游同一相位是否具有终止

9、码，或者具有起始密码子。（3）参考 Kozak 一致性规律，即起始密码子位点符合 A/GCCATGG。（4）不要忽略反义读框。 4、染色体定位根据基因组图谱对序列进行染色体定位和浏览其基因组上下游基因。具体方法为：（1）进行 Genomic BLAST 搜索。（2）通过“Genome view”观察基因组结构。（3）点击相应染色体区域，通过表意图（ideogram）和相应区域上下游的基因进行精确定位。5、基因结构分析根据基因的 mRNA 序列及基因组序列，可以进行基因结构的分析。推荐使用 BLAST 或BLAT(http:/genome.ucsc.edu/cgi-bin/hgBla

10、t?command=start)进行分析。由于真核生物转录后内含子将被剪切，因此将 mRNA 和基因组进行比对以后，会发现 mRNA 的每个外显子与基因组序列片断匹配，根据这些片段可以判断外显子的数目和大小。外显子和内含子具体边界的确定，可以参考 GT/AG 一致性规则。BLAT 的结果直接显示外显子数目、大小及边界。 6、基因上游调控区分析（1）启动子预测：推荐使用冷泉港开发的 FIRSTEF 程序（http:/rulai.cshl.org/tools/FirstEF/）进行启动子预测。用 RT-PCR 等实验方法获得的 mRNA 往往缺少完整的 5端，采用 FirstEF 程序可以对第一

11、外显子（尤其是非编码的第一外显子）和 CpG 相关启动子进行预测。方法：以 FastA 格式输入起始密码子上游序列。（2）转录因子结合位点分析：推荐使用 TFSEARCH 程序（http:/www.cbrc.jp/research/db/TFSEARCH.html）及 MATCH 程序（http:/www.gene- TRANSFAC（http:/transfac.gbf.de/TRANSFAC/ ）进行搜索，寻找可能的转录因子结合位点。方法：输入起始密码子上游序列。结果将给出很多可能的转录因子结合位点，注意选择其中分值较高的位点。（二）蛋白质序列分析 1、跨膜区预测各个物种的膜

12、蛋白的比例差别不大，约四分之一的人类已知蛋白为膜蛋白。由于膜蛋白不溶于水，分离纯化困难，不容易生长晶体，很难确定其结构。因此，对膜蛋白的跨膜螺旋进行预测是生物信息学的重要应用。推荐使用 TMHMM 软件（http:/www.cbs.dtu.dk/services/TMHMM/）对蛋白进行跨膜预测。TMHMM 综合了跨膜区疏水性、电荷偏倚、螺旋长度和膜蛋白拓扑学限制等性质，采用隐马氏模型（Hidden Markov Models），对跨膜区及膜内外区进行整体的预测。TMHMM 是目前最好的进行跨膜区预测的软件,它尤其长于区分可溶性蛋白和膜蛋白，因此首选它来判定一个蛋白是否为膜蛋白。所有跨膜区预

13、测软件的准确性都不超过 52，但 86的跨膜区可以通过不同的软件进行正确预测。因此，综合分析不同的软件预测结果和疏水性图以获得更好的预测结果。方法：输入待分析的蛋白序列即可。 2、信号肽预测信号肽位于分泌蛋白的 N 端，当蛋白跨膜转移位置时被切掉。信号肽的特征是包括一个正电荷区域、一个疏水性区域和不带电荷但具有极性的区域。信号肽切割位点的-3 和-1 位为小而中性氨基酸。推荐使用 SignalP 软件 2.0 版（http:/www.cbs.dtu.dk/services/SignalP-2.0/ ）对 PDCD5N 端序列进行信号肽分析。SignalP2.0 根据信号肽序列特征，采用神

14、经网络方法或隐马氏模型方法，根据物种的不同，分别选择用真核和原核序列进行训练，对信号肽位置及切割位点进行预测。信号肽切割位点预测用 Y-score maximum 来判断，对是否分泌蛋白用 mean S-score 来判断：如果 mean S-score 大于 0.5，则预测为分泌蛋白，存在信号肽，但 II 型跨膜蛋白的 N 端序列可能被错误预测为分泌蛋白的信号肽。方法：输入待分析的蛋白序列，如为原核基因选择原核训练集，否则选择真核训练集。 3、亚细胞定位预测亚细胞定位与蛋白质的功能存在着非常重要的联系。亚细胞定位预测基于如下原理：（1）不同的细胞器往往具有不同的理化环境,它根据蛋白质的结构及表面理化特征,选择性容纳蛋白。（2）蛋白质表面直接暴露于细胞器环境中,它由序列折叠过程决定,而后者取决于氨基酸组成。因此可以通过氨基酸组成进行亚细胞定位的预测。推荐使用 PSORT（http:/psort.nibb.ac.jp/）II 软件对 PDCD5 蛋白的细胞内定位进行预测。PSORT 将动物蛋白质定位于 10 个细胞器：（1）细胞浆，（2）细胞骨架，（3）内质网，（4）胞外，（5）高尔基体，（6）溶酶体，（7）线粒体，（8）胞核，（9）过氧化物酶体（peroxisome）和（10）细胞膜。

展开阅读全文