1、NCBI在线 Blast的图文说明Blast(Basic Local Alignment Search Tool)是一套在蛋白质数据库或 DNA 数据库中进行相似性比较的分析工具。BLAST 程序能迅速与公开数据库进行相似性序列比较。BLAST结果中的得分是对一种对相似性的统计说明。BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。Blast 中常用的程序介绍:1、BLASTP 是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。2、BLASTX 是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条
2、蛋白),再对每一条作一对一的蛋白序列比对。3、BLASTN 是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。4、TBLASTN 是蛋白序列到核酸库中的一种查询。与 BLASTX 相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。5、TBLASTX 是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生 6 条可能的蛋白序列),这样每次比对会产生36 种比对阵列。NCBI 的在线 blast:http:/blast.ncbi.nlm.nih.gov/Blast.cgi1、进入在线
3、 blast 界面,可以选择 blast 特定的物种(如人,小鼠,水稻等),也可以选择 blast 所有的核酸或蛋白序列。不同的 blast 程序上面已经有了介绍。这里以常用的核酸库作为例子。NCBI 在线 blast 页面2、粘贴 fasta 格式的序列。选择一个要比对的数据库。关于数据库的说明请看 NCBI 在线 blast 数据库的简要说明。一般的话参数默认。NCBI 在线 blast 页面3、blast 参数的设置。注意显示的最大的结果数跟 E 值,E 值是比较重要的。筛选的标准。最后会说明一下。blast 参数设置4、注意一下你输入的序列长度。注意一下比对的数据库的说明。NCBI 在
4、线索 blast 结果5、blast 结果的图形显示。没啥好说的。blast 的图形显示6、blast 结果的描述区域。注意分值与 E 值。分值越大越靠前了,E 值越小也是这样。blast 结果的描述7、blast 结果的详细比对结果。注意比对到的序列长度。评价一个 blast 结果的标准主要有三项,E 值(Expect),一致性(Identities),缺失或插入(Gaps)。加上长度的话,就有四个标准了。如图中显示,比对到的序列长度为 1405,看 Identities 这一值,才匹配到 1344bp,而输入的序列长度也是为 1344bp(看上面的图),就说明比对到的序列要长一点。由 Qu
5、rey(起始 1)和 Sbjct(起始 35)的起始位置可知,5端是是多了一段的。有时也要注意 3端的。blast 结果的详细区域 1blast 结果的详细区域 2附:E 值(Expect):表示随机匹配的可能性,E 值越大,随机匹配的可能性也越大。E 值接近零或为零时,具本上就是完全匹配了。一致性(Identities):或相似性。匹配上的碱基数占总序列长的百分数。缺失或插入(Gaps):插入或缺失。用“”来表示。NCBI在线 blast数据库的简要说明Peptide Sequence Databases蛋白序列的数据库nrAll non-redundant GenBank CDS tran
6、slations +RefSeqProteins + PDB + SwissProt + PIR + PRF所有非冗余的的 GenBank CDS 区的翻译序列 + 参考序列的蛋白 + PDB 数据库 + SwissProt蛋白数据库 + PRF 蛋白数据库refseqRefSeq protein sequences fromNCBIs Reference Sequence Project.所有 NCBI 的参考序列swissprotLast major release of the SWISS-PROT protein sequence database (no updates).swiss
7、prot 的蛋白数据库patProteins from the Patent division of GenPept.专利的蛋白数据库pdbSequences derived from the 3-dimensional structure from Brookhaven Protein Data Bank.PDB 数据库monthAll new or revised GenBank CDS translation+PDB+SwissProt+PIR+PRF released in the last 30 days.一个月内新增加的蛋白序列env_nrProtein sequences fro
8、m environmental samples.来自 environmental samples 的蛋白序列Nucleotide Sequence Databases核酸数据库nrAll GenBank + RefSeq Nucleotides + EMBL + DDBJ + PDB sequences (excluding HTGS0,1,2,EST, GSS, STS, PAT, WGS). No longer “non-redundant“.所有 GenBank 的核酸序列 + 参考序列中的核酸序列+ EMBL +DDBJ +PDB 核酸序列(但不包括 HTG,EST,GSS 等序列)r
9、efseq_rnaRNA entries from NCBIs Reference Sequence projectNCBI 参考序列中的核酸序列refseq_genomicGenomic entries from NCBIs Reference Sequence projectNCBI 参考序列中的基因组序列estDatabase of GenBank + EMBL + DDBJ sequences from EST Divisions来自 GenBank + EMBL + DDBJ 的 EST 序列est_humanHuman subset of est.人的 EST 序列est_mous
10、eMouse subset.小鼠的 EST 序列est_othersNon-Mouse, non-Human subset of est. 除了人与小鼠之外的 EST 序列gssGenome Survey Sequence, includes single-pass genomic data, exon-trapped sequences, and Alu PCR sequences.htgsUnfinished High Throughput Genomic Sequences: phases 0, 1 and 2 (finished, phase 3 HTG sequences are i
11、n nr)未发布的高通量的基因组测序patNucleotides from the Patent division of GenBank.专利的核酸序列pdbSequences derived from the 3-dimensional structure from Brookhaven Protein Data BankPDB 核酸序列monthAll new or revised GenBank + EMBL + DDBJ + PDB sequences released in the last 30 days.一个月内新增的核酸序列dbstsDatabase of GenBank+EM
12、BL+DDBJ sequences from STS Divisions .STS 数据库chromosomeA database with complete genomes and chromosomes from the NCBI Reference Sequence projectNCBI 参考序列计划中所有的完整基因组和染色体序列wgsA database for whole genome shotgun sequence entries.基因组鸟枪法测序得到的序列env_ntNucleotide sequences from environmental samples, includ
13、ing those from Sargasso Sea and Mine Drainage projects.来自 environmental samples 的核酸序列。Primer-BLAST:NCBI 的引物设计和特异性检验工具Primer-Blast介绍Primer-BLAST,在线设计用于聚合酶链反应(PCR)的特异性寡核苷酸引物。Primer-BLAST 可以直接从 Blast 主页(http:/blast.ncbi.nlm.nih.gov/)找到,或是直接用下面的链接进入:http:/www.ncbi.nlm.nih.gov/tools/primer-blast/这个工具整合了目
14、前流行的 Primer3 软件,再加上 NCBI 的 Blast 进行引物特异性的验证。Primer-BLAST 免除了用另一个站点或工具设计引物的步骤,设计好的引物程序直接用Blast 进行引物特异性验证。并且,Primer-BLAST 能设计出只扩增某一特定剪接变异体基因的引物an important feature for PCR protocols measuring tissue specific expression(注:没办法准确的翻译,只好作罢,汗!)。Primer-BLAST 有许多改进的功能,这样在选择引物方面比单个的用 Primer3 和 NCBI BLAST 更加准确。
15、Primer-BLAST的输入Primer-BLAST 界面包括了 Primer3 和 BLAST 的功能。提交的界面主要包括三个部分:target template(模板区), the primers(引物区), 和 specificity check(特异性验证区)。跟其它的 BLAST 一样,点击底部的“Advanced parameters”有更多的参数设置。模板(Template)在“PCR Template”下面的文本框,输入目标模板的序列,FASTA 格式或直接用AccessionNumber。如果你在这里输入了序列,是用于引物的设计。Primer-BLAST 就会根据你输入的序
16、列设计特异性引物,并且在目标数据库(在 specificity check 区选择)是唯一的。引物(Primers)如果你已经设计好了引物,要拿来验证引物的好坏。可以在 Primer Parameters 区填入你的一条或一对引物。并且选择好验证的目标数据库(在 specificity check 区选择)。根据需要可设置产物的大小,Tm 值等。特异性(Specificity)在 specificity check 区,选择设计引物或验证引物时的目标数据库和物种。这一步是比较重要的。这里提供了 4 种数据库:RefSeqmRNA, Genome (selected reference asse
17、mblies), Genome (all chromosomes), and nr (the standard non-redundant database)。前两个数据库是经过专家注释的数据,这样可以给出更准确的结果。特别是,当你用 NCBI 的参考序列作为模板和参考序列数据库作为标准来设计引物时,Primer-BLAST可以设计出只扩增某一特定剪接变异体基因的特异引物。selected reference assemblies 包括以下的物种:human, chimpanzee, mouse, rat, cow, dog, chicken, zebrafish, fruit fly, ho
18、neybee, Arabidopsis, 和 rice。Nr 数据库覆盖 NCBI 所有的物种。实例分析用人尿嘧啶 DNA 糖基化酶(uracil-DNA glycosylase genes, UNG, GeneID: 7374)的两个转录本序列作为一个例子来分析。UNG1 的序列长一点(NM_003362),UNG2 的序列短一点(NM_080911,注:拿这两个基因的序列 ClustalW 一下就可以了)。这里用 UNG2 的序列设计引物,选择 RefSeq mRNA database,物种是 Human,其它默认。结果如下图 A-B 所示,设计的引物只能扩增出 UNG2。看上面的图,把“
19、Allow primer to amplify mRNA splice variants”这个选项给勾上,出现的结果如下图-C 所示,新的引物也可以扩增出 UNG1(注:我试了一下,不能得到预期的结果,可能参数没设对)。Figure. Primer-BLAST results for UNG transcript variant 2. The NCBI Reference sequence NM_080911 was used as a template.Top panel: Primers specific to the single splice variant are reported
20、by default with the mRNA RefSeq database limited to human sequences.Bottom panel: Primers that amplify both splice variants are found with the option to allow splice variants.一些 Tips1、在任何时候都要优先使用参考序列的 Gi 号或 Accession 号(尽量不要 Fasta 格式的序列)。另外,确保你的序列是最新版本的(在填 Accession Number 时后面不加版本号就会自动拿最新的序列)2、就算你对整个
21、序列的某部分感兴趣(如某条染色体上的某个区域),你也应该优化使用 Gi 号或 Accession 号(Primer-BLAST 有参数可以设置设计引物的范围,”Form-To”,如上面的第一幅图所示)。因为用 Gi 号或 Accession 号,NCBI 会自动读取该序列的一些注释数据,对引物的设计更加有利。3、尽量使用没有冗除的数据库(如 refseq_rna 或 genome database),nr 数据库包括了太多的冗除的序列,会干扰引物的设计。4、请指定一个或几个 PCR 扩增的目标物种。如果不指定在所有的物种搜索,将会使程序变得很慢,引物的结果也会受其它不相关的物种影响。参考文献1
22、、Steve Rozen and Helen J. Skaletsky (2000) Primer3 on the WWW for general users and for biologist programmers. In: Krawetz S, Misener S (eds)BioinformaticsMethods and Protocols: Methods in Molecular Biology. Humana Press, Totowa, NJ, pp 365-386.Fasta格式的详细说明序列的 Fasta 格式是最经常看到的格式之一。下面简介说明一下什么是 FASTA 格
23、式。Fasta 格式开始于一个标识符:“”,然后是一行描述,下面是一行行的序列。每一行最好不要超过 80 个字母。如:gi|532319|pir|TVFV2E|TVFV2E envelope proteinELRLRYCAPAGFALLKCNDADYDGFKTNCSNVSVVHCTNLMNTTVTTGLLLNGSYSENRTQIWQKHRTSNDSALILLNKHYNLTVTCKRPGNKTVLPVTIMAGLVFHSQKYNLRLRQAWCHFPSNWKGAWKEVKEEIVNLPKERYRGTNDPKRIFFQRQWGDPETANLWFNCHGEFFYCKMDWFLNYLNNLTVDADH
24、NECKNTSGTKSGNKRAPGPCVQRTYVACHIRSVIIWLETISKKTYAPPREGHLECTSTVTGMTVELNYIPKNRTNVTLSPQIESIWAAELDRYKLVEITPIGFAPTEVRRYTGGHERQKRVPFVXXXXXXXXXXXXXXXXXXXXXXVQSQHLLAGILQQQKNLLAAVEAQQQMLKLTIWGVK下面再说一下每个字母或字符所代表的含义。核苷酸序列:A adenosine M A C (amino)C cytidine S G C (strong)G guanine W A T (weak)T thymidine B G T CU
25、 uridine D G A TR G A (purine) H A C TY T C (pyrimidine) V G C AK G T (keto) N A G C T (any)- gap of indeterminate length氨基酸序列:A alanine P prolineB aspartate or asparagine Q glutamineC cystine R arginineD aspartate S serineE glutamate T threonineF phenylalanine U selenocysteineG glycine V valineH histidine W tryptophanI isoleucine Y tyrosineK lysine Z glutamate or glutamineL leucine X anyM methionine * translation stopN asparagine - gap of indeterminate length查看 生物信息学 的全部文章