ImageVerifierCode 换一换
格式:DOC , 页数:18 ,大小:69KB ,
资源ID:2232716      下载积分:10 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.docduoduo.com/d-2232716.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(NCBI在线Blast的图文说明.doc)为本站会员(lufeng1000)主动上传,道客多多仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知道客多多(发送邮件至docduoduo@163.com或直接QQ联系客服),我们立即给予删除!

NCBI在线Blast的图文说明.doc

1、NCBI在线 Blast的图文说明Blast(Basic Local Alignment Search Tool)是一套在蛋白质数据库或 DNA 数据库中进行相似性比较的分析工具。BLAST 程序能迅速与公开数据库进行相似性序列比较。BLAST结果中的得分是对一种对相似性的统计说明。BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。Blast 中常用的程序介绍:1、BLASTP 是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。2、BLASTX 是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条

2、蛋白),再对每一条作一对一的蛋白序列比对。3、BLASTN 是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。4、TBLASTN 是蛋白序列到核酸库中的一种查询。与 BLASTX 相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。5、TBLASTX 是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生 6 条可能的蛋白序列),这样每次比对会产生36 种比对阵列。NCBI 的在线 blast:http:/blast.ncbi.nlm.nih.gov/Blast.cgi1、进入在线

3、 blast 界面,可以选择 blast 特定的物种(如人,小鼠,水稻等),也可以选择 blast 所有的核酸或蛋白序列。不同的 blast 程序上面已经有了介绍。这里以常用的核酸库作为例子。NCBI 在线 blast 页面2、粘贴 fasta 格式的序列。选择一个要比对的数据库。关于数据库的说明请看 NCBI 在线 blast 数据库的简要说明。一般的话参数默认。NCBI 在线 blast 页面3、blast 参数的设置。注意显示的最大的结果数跟 E 值,E 值是比较重要的。筛选的标准。最后会说明一下。blast 参数设置4、注意一下你输入的序列长度。注意一下比对的数据库的说明。NCBI 在

4、线索 blast 结果5、blast 结果的图形显示。没啥好说的。blast 的图形显示6、blast 结果的描述区域。注意分值与 E 值。分值越大越靠前了,E 值越小也是这样。blast 结果的描述7、blast 结果的详细比对结果。注意比对到的序列长度。评价一个 blast 结果的标准主要有三项,E 值(Expect),一致性(Identities),缺失或插入(Gaps)。加上长度的话,就有四个标准了。如图中显示,比对到的序列长度为 1405,看 Identities 这一值,才匹配到 1344bp,而输入的序列长度也是为 1344bp(看上面的图),就说明比对到的序列要长一点。由 Qu

5、rey(起始 1)和 Sbjct(起始 35)的起始位置可知,5端是是多了一段的。有时也要注意 3端的。blast 结果的详细区域 1blast 结果的详细区域 2附:E 值(Expect):表示随机匹配的可能性,E 值越大,随机匹配的可能性也越大。E 值接近零或为零时,具本上就是完全匹配了。一致性(Identities):或相似性。匹配上的碱基数占总序列长的百分数。缺失或插入(Gaps):插入或缺失。用“”来表示。NCBI在线 blast数据库的简要说明Peptide Sequence Databases蛋白序列的数据库nrAll non-redundant GenBank CDS tran

6、slations +RefSeqProteins + PDB + SwissProt + PIR + PRF所有非冗余的的 GenBank CDS 区的翻译序列 + 参考序列的蛋白 + PDB 数据库 + SwissProt蛋白数据库 + PRF 蛋白数据库refseqRefSeq protein sequences fromNCBIs Reference Sequence Project.所有 NCBI 的参考序列swissprotLast major release of the SWISS-PROT protein sequence database (no updates).swiss

7、prot 的蛋白数据库patProteins from the Patent division of GenPept.专利的蛋白数据库pdbSequences derived from the 3-dimensional structure from Brookhaven Protein Data Bank.PDB 数据库monthAll new or revised GenBank CDS translation+PDB+SwissProt+PIR+PRF released in the last 30 days.一个月内新增加的蛋白序列env_nrProtein sequences fro

8、m environmental samples.来自 environmental samples 的蛋白序列Nucleotide Sequence Databases核酸数据库nrAll GenBank + RefSeq Nucleotides + EMBL + DDBJ + PDB sequences (excluding HTGS0,1,2,EST, GSS, STS, PAT, WGS). No longer “non-redundant“.所有 GenBank 的核酸序列 + 参考序列中的核酸序列+ EMBL +DDBJ +PDB 核酸序列(但不包括 HTG,EST,GSS 等序列)r

9、efseq_rnaRNA entries from NCBIs Reference Sequence projectNCBI 参考序列中的核酸序列refseq_genomicGenomic entries from NCBIs Reference Sequence projectNCBI 参考序列中的基因组序列estDatabase of GenBank + EMBL + DDBJ sequences from EST Divisions来自 GenBank + EMBL + DDBJ 的 EST 序列est_humanHuman subset of est.人的 EST 序列est_mous

10、eMouse subset.小鼠的 EST 序列est_othersNon-Mouse, non-Human subset of est. 除了人与小鼠之外的 EST 序列gssGenome Survey Sequence, includes single-pass genomic data, exon-trapped sequences, and Alu PCR sequences.htgsUnfinished High Throughput Genomic Sequences: phases 0, 1 and 2 (finished, phase 3 HTG sequences are i

11、n nr)未发布的高通量的基因组测序patNucleotides from the Patent division of GenBank.专利的核酸序列pdbSequences derived from the 3-dimensional structure from Brookhaven Protein Data BankPDB 核酸序列monthAll new or revised GenBank + EMBL + DDBJ + PDB sequences released in the last 30 days.一个月内新增的核酸序列dbstsDatabase of GenBank+EM

12、BL+DDBJ sequences from STS Divisions .STS 数据库chromosomeA database with complete genomes and chromosomes from the NCBI Reference Sequence projectNCBI 参考序列计划中所有的完整基因组和染色体序列wgsA database for whole genome shotgun sequence entries.基因组鸟枪法测序得到的序列env_ntNucleotide sequences from environmental samples, includ

13、ing those from Sargasso Sea and Mine Drainage projects.来自 environmental samples 的核酸序列。Primer-BLAST:NCBI 的引物设计和特异性检验工具Primer-Blast介绍Primer-BLAST,在线设计用于聚合酶链反应(PCR)的特异性寡核苷酸引物。Primer-BLAST 可以直接从 Blast 主页(http:/blast.ncbi.nlm.nih.gov/)找到,或是直接用下面的链接进入:http:/www.ncbi.nlm.nih.gov/tools/primer-blast/这个工具整合了目

14、前流行的 Primer3 软件,再加上 NCBI 的 Blast 进行引物特异性的验证。Primer-BLAST 免除了用另一个站点或工具设计引物的步骤,设计好的引物程序直接用Blast 进行引物特异性验证。并且,Primer-BLAST 能设计出只扩增某一特定剪接变异体基因的引物an important feature for PCR protocols measuring tissue specific expression(注:没办法准确的翻译,只好作罢,汗!)。Primer-BLAST 有许多改进的功能,这样在选择引物方面比单个的用 Primer3 和 NCBI BLAST 更加准确。

15、Primer-BLAST的输入Primer-BLAST 界面包括了 Primer3 和 BLAST 的功能。提交的界面主要包括三个部分:target template(模板区), the primers(引物区), 和 specificity check(特异性验证区)。跟其它的 BLAST 一样,点击底部的“Advanced parameters”有更多的参数设置。模板(Template)在“PCR Template”下面的文本框,输入目标模板的序列,FASTA 格式或直接用AccessionNumber。如果你在这里输入了序列,是用于引物的设计。Primer-BLAST 就会根据你输入的序

16、列设计特异性引物,并且在目标数据库(在 specificity check 区选择)是唯一的。引物(Primers)如果你已经设计好了引物,要拿来验证引物的好坏。可以在 Primer Parameters 区填入你的一条或一对引物。并且选择好验证的目标数据库(在 specificity check 区选择)。根据需要可设置产物的大小,Tm 值等。特异性(Specificity)在 specificity check 区,选择设计引物或验证引物时的目标数据库和物种。这一步是比较重要的。这里提供了 4 种数据库:RefSeqmRNA, Genome (selected reference asse

17、mblies), Genome (all chromosomes), and nr (the standard non-redundant database)。前两个数据库是经过专家注释的数据,这样可以给出更准确的结果。特别是,当你用 NCBI 的参考序列作为模板和参考序列数据库作为标准来设计引物时,Primer-BLAST可以设计出只扩增某一特定剪接变异体基因的特异引物。selected reference assemblies 包括以下的物种:human, chimpanzee, mouse, rat, cow, dog, chicken, zebrafish, fruit fly, ho

18、neybee, Arabidopsis, 和 rice。Nr 数据库覆盖 NCBI 所有的物种。实例分析用人尿嘧啶 DNA 糖基化酶(uracil-DNA glycosylase genes, UNG, GeneID: 7374)的两个转录本序列作为一个例子来分析。UNG1 的序列长一点(NM_003362),UNG2 的序列短一点(NM_080911,注:拿这两个基因的序列 ClustalW 一下就可以了)。这里用 UNG2 的序列设计引物,选择 RefSeq mRNA database,物种是 Human,其它默认。结果如下图 A-B 所示,设计的引物只能扩增出 UNG2。看上面的图,把“

19、Allow primer to amplify mRNA splice variants”这个选项给勾上,出现的结果如下图-C 所示,新的引物也可以扩增出 UNG1(注:我试了一下,不能得到预期的结果,可能参数没设对)。Figure. Primer-BLAST results for UNG transcript variant 2. The NCBI Reference sequence NM_080911 was used as a template.Top panel: Primers specific to the single splice variant are reported

20、by default with the mRNA RefSeq database limited to human sequences.Bottom panel: Primers that amplify both splice variants are found with the option to allow splice variants.一些 Tips1、在任何时候都要优先使用参考序列的 Gi 号或 Accession 号(尽量不要 Fasta 格式的序列)。另外,确保你的序列是最新版本的(在填 Accession Number 时后面不加版本号就会自动拿最新的序列)2、就算你对整个

21、序列的某部分感兴趣(如某条染色体上的某个区域),你也应该优化使用 Gi 号或 Accession 号(Primer-BLAST 有参数可以设置设计引物的范围,”Form-To”,如上面的第一幅图所示)。因为用 Gi 号或 Accession 号,NCBI 会自动读取该序列的一些注释数据,对引物的设计更加有利。3、尽量使用没有冗除的数据库(如 refseq_rna 或 genome database),nr 数据库包括了太多的冗除的序列,会干扰引物的设计。4、请指定一个或几个 PCR 扩增的目标物种。如果不指定在所有的物种搜索,将会使程序变得很慢,引物的结果也会受其它不相关的物种影响。参考文献1

22、、Steve Rozen and Helen J. Skaletsky (2000) Primer3 on the WWW for general users and for biologist programmers. In: Krawetz S, Misener S (eds)BioinformaticsMethods and Protocols: Methods in Molecular Biology. Humana Press, Totowa, NJ, pp 365-386.Fasta格式的详细说明序列的 Fasta 格式是最经常看到的格式之一。下面简介说明一下什么是 FASTA 格

23、式。Fasta 格式开始于一个标识符:“”,然后是一行描述,下面是一行行的序列。每一行最好不要超过 80 个字母。如:gi|532319|pir|TVFV2E|TVFV2E envelope proteinELRLRYCAPAGFALLKCNDADYDGFKTNCSNVSVVHCTNLMNTTVTTGLLLNGSYSENRTQIWQKHRTSNDSALILLNKHYNLTVTCKRPGNKTVLPVTIMAGLVFHSQKYNLRLRQAWCHFPSNWKGAWKEVKEEIVNLPKERYRGTNDPKRIFFQRQWGDPETANLWFNCHGEFFYCKMDWFLNYLNNLTVDADH

24、NECKNTSGTKSGNKRAPGPCVQRTYVACHIRSVIIWLETISKKTYAPPREGHLECTSTVTGMTVELNYIPKNRTNVTLSPQIESIWAAELDRYKLVEITPIGFAPTEVRRYTGGHERQKRVPFVXXXXXXXXXXXXXXXXXXXXXXVQSQHLLAGILQQQKNLLAAVEAQQQMLKLTIWGVK下面再说一下每个字母或字符所代表的含义。核苷酸序列:A adenosine M A C (amino)C cytidine S G C (strong)G guanine W A T (weak)T thymidine B G T CU

25、 uridine D G A TR G A (purine) H A C TY T C (pyrimidine) V G C AK G T (keto) N A G C T (any)- gap of indeterminate length氨基酸序列:A alanine P prolineB aspartate or asparagine Q glutamineC cystine R arginineD aspartate S serineE glutamate T threonineF phenylalanine U selenocysteineG glycine V valineH histidine W tryptophanI isoleucine Y tyrosineK lysine Z glutamate or glutamineL leucine X anyM methionine * translation stopN asparagine - gap of indeterminate length查看 生物信息学 的全部文章

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报