关于生物信息学数据库及检索资料.ppt-道客多多

资源描述

1、常用数据库简介,数据库（Database）,用于收集、整理、储存、加工、发布和检索数据的系统。,生物类的数据库种类很多,投稿文章首先要将核苷酸序列或蛋白质序列提交到相应的数据库中,数据库记录通常包括两部分,原始数据对这些数据进行的生物学意义的注释,一个数据库通常链接了多个相关数据库,核苷酸数据库水稻抗病相关基因OsDR8DQ176424,Taxonomy 数据库,Pubmed 数据库,NCBI-Protein 数据库,（一）数据库工具,建立纯文本数据库,GenBank 数据库、EMBL 核苷酸数据库,MySQL 数据库工具,SQL（结构化查询语言）是世界上流行的和标准化的数据库语言能够快速灵

2、活存储记录文件和图像下载网址http:/ 数据库工具,AceDB：A C. elegans DataBase（线虫数据库）被广泛应用的管理和提供基因组数据的工具数据形式丰富,遗传图谱,物理图谱,新陈代谢途径,序列等,1 gggctccacc actagtaccc ctcactacag gtagccataa aaaaaatcga tcaccaaaac 61 ccattattag gttgtgtact gatacagaaa gttgggaacc aatctcccag cacagaaaac 121 ggtacggttc attagcgcgt gattaattaa atatttacta tttt

3、ttaaaa aaaatagatc 181 aatatgattt ttaagcaact ttcgtataaa tactttttca aaaaaacaca ccgttttcta 241 gtttgaaaag cgtacacgcg tgaaatgagg gagaaaggtt ggaaacgtgg gattgcaaac,（二）各种生物数据库,1、核苷酸数据库,DNA、mRNA、tRNA、rRNA序列RNA序列以cDNA序列的形式收集核苷酸序列直接来源于实验数据大量氨基酸序列,主要是非实验来源数据coding sequence (CDS),数据库种类很多,GenBank、EMBL核苷酸数据库、DDBJ

4、信息资源共享：以天为基础进行数据库之间的序列数据交换收集了专利的核苷酸序列,United States Patent and Trademark Office (USPTO) European Patent Office (EPO) Japan Patent Office (JPO),三大核苷酸数据库,国际核苷酸序列数据库合作协议（International Nucleotide Sequence Database Collaboration）收集的核苷酸来源,（1）GenBankhttp:/www.ncbi.nlm.nih.gov/genbank/,美国NCBI的数据库，有部分蛋白质序列

5、数据每天更新，每年发行（release）六版 Release 185（2011.8.15）,142284608 sequences 130671233801 bases 142284608 loci 下载全部序列大概需要511 GB,来源于500,000多个物种大约12.2来源于Homo sapiens,在GenBank数据库中序列最多的20个物种,Growth of GenBank(1982-2009),Base pairs/1,000,000,000 Entries/1,000,000,Locus name（位点名） Accession number （注册号或登陆号） GI（GenI

6、nfo identifier）NID（Nucleotide ID）,每个序列有一个flatfile每条序列有三个专有的编号或标识（identifier）,LOCUS line,The divisions（分支）of GenBank,The divisions（分支）of GenBank,（2）dbEST (Database of Expressed Sequence Tags)http:/www.ncbi.nlm.nih.gov/dbEST/index.html,GenBank的二级数据库 EST cDNA 序列的一个片断（5端、3端、CDS）300400 bpSingle-pass sequ

7、enceGenBank 中64以上的序列是 EST,（3）UniGene 数据库http:/www.ncbi.nlm.nih.gov/UniGene/,NCBI 的另一个核苷酸数据库来源于同一基因的非重复 EST 组成基因序列群,人、大鼠、小鼠、斑马鱼、牛、蛙等拟南芥、水稻、小麦、大麦、玉米等共计97个物种,UniGene主页输入关键词检索,（4）dbSTS (Database of Sequence Tagged Sites)http:/www.ncbi.nlm.nih.gov/dbSTS/index.html,GenBank的二级数据库短序列（200-500 bp）已定位于染色体上的

8、、序列已知的单拷贝DNA短片段检索：GenBank主页选择UniSTS后输入关键词,检索到的条目,每一条目详细内容,点击“mv”查看染色体定位,（5）dbGSS (Database of Genome Survey Sequences)http:/www.ncbi.nlm.nih.gov/dbGSS/index.html,G181,0.42,0.84,RM224,0.21,R1506,0.21,Xa26,S12886,1.47,0.00,0.63,L1044,NBS119,RM144,Y6855RA,0.00,11,The GSS division of GenBank is similar

9、to the EST division, with the exception that most of the sequences are genomic in origin, rather than cDNA (mRNA).,Genome Survey Sequences are typically generated and submitted to NCBI by labs performing genome sequencing and are used, amongst other things, as a framework for the mapping and sequenc

10、ing of genome size pieces included in the standard GenBank divisions.,GenBank的二级数据库,The GSS division contains (but is not limited to) the following types of data: random “single pass read“ genome survey sequences. cosmid/BAC/YAC end sequences exon trapped genomic sequences Alu PCR sequences transpos

11、on-tagged sequences,（6）HTG (High-Throughput Genomic Sequences)http:/www.ncbi.nlm.nih.gov/HTGS/,GenBank 的二级数据库尚未完成测序的重叠群（ 2 kb）的序列新序列的增加速度很快,A typical HTG record might consist of all the first pass sequence data generated from a single cosmid, BAC, YAC, or P1 clone which together make up more than 2

12、kb and contain one or more gaps.,a,b,c,a,b,c,d,Phase 0,Phase 1,Phase 2,Phase 3,未知序列,e,cosmid / BAC / YAC,（7）基因组数据库http:/www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Genome,NCBI 的另一个数据库测序完成和正在测序物种基因组序列、遗传图、物理图等序列收集在GenBank数据形式丰富已经完成测序的基因组,Taxonomic coverage,（8）dbSNP (Database of Single Nucleotide Pol

13、ymorphisms)http:/www.ncbi.nlm.nih.gov/SNP/,NCBI的数据库，创建于1998.9约每100300 bp 有一个SNP数据种类,Single nucleotide polymorphism（SNP） Short deletion-Insertion polymorphism,Insertion/deletion (Indel) Deletion/insertion/substitution (DIS),dbSNP主页输入关键词,检索到的条目,每一条目详细内容,标准碱基多意代码,tyrosine kinase,酪氨酸激酶,（9）EMBL (European

14、 Molecular Biology Laboratory)Nucleotide Sequence Database,EBI (European Bioinformatics Institute) 管理主要是欧洲国家产生的 DNA 和 RNA 序列序列数据文档格式与 GenBank 不同,数据库主页http:/www.ebi.ac.uk/embl/Access/index.html输入关键词,检索到的条目,每一条目详细内容,（10）DDBJ (DNA Data Bank of Japan),主要是日本产生的 DNA 和 RNA 序列,数据库主页http:/www.ddbj.nig.ac.jp/

15、Welcome-e.html输入关键词,检索到的条目,每一条目详细内容,发表文章要提供 Accession number,（11）EPD (Eukaryotic Promoter Database)http:/www.genome.ad.jp/dbget/dbget2.html,由Weizmann Institute of Science in Rehovot (Israel) 开创 4806条真核生物启动子序列（2010.11，release 105）人类基因组中的启动子大约19万个同一个基因具有多个启动子,2、蛋白质数据库,（1）SWISS-PROT,由 EBI 和瑞士创办有详细注释

16、的序列，数据来源于实验与44个数据库相互参照（cross-reference）,数据库主页http:/www.ebi.ac.uk/swissprot/点击Access,在Database Access网页选择数据库、输入关键词,检索到的条目,（2）TrEMBL (Translation of EMBL)http:/www.ebi.ac.uk/swissprot/,EBI 的数据库提交到 EMBL 核苷酸数据库中所有CDS 的氨基酸序列,UniProt (Universal Protein Resource),合并了SWISS-PROT 和 TrEMBL数据库检索方法与检索SWISS-PRO

17、T相同数据格式,（3）PIR (Protein Information Resource)http:/pir.georgetown.edu,由National Biomedical Research Foundation 创办可将蛋白质序列分类结构域,（4）PRF (Protein Research Foundation)http:/www.prf.or.jp/,由日本的 Protein Research Foundation 创办已发表在杂志上的蛋白质序列修饰位点、SS键等两月更新一次,（5）PDBSTR (Re-Organized Protein Data Bank)http:/ww

18、w.genome.ad.jp,蛋白质序列和二级结构螺旋结构,（6）Prositehttp:/www.expasy.org/prosite,蛋白质家族结构域,3、结构数据库,（1）PDB (Protein Data Bank)http:/www.rcsb.org,由 Brookhaven National Laboratories 创办,蛋白质核酸（DNA、RNA）其它（蛋白-核酸复合物）,71516 个结构图（2011.3.1）,可通过 BLAST 系统检索,X 射线衍射图、核磁共振（NMR）光谱图和电镜图（文字和三维结构图）,Total,Yearly,PDB Content Growt

19、h,（2）NDB（Nucleic Acid Database）http:/ndbserver.rutgers.edu/,核酸的结构,（3）DNA-Binding Protein Databasehttp:/ndbserver.rutgers.edu/,DNA 结合蛋白质的 X 射线衍射结构图,（4）SWISS-3D IMAGEhttp:/www.expasy.ch/sw3d/,蛋白质的平面和立体图,来源于实验结果理论模型,4、酶和代谢数据库,（1）KEGG (Kyoto Encyclopedia of Genes and Genomes),各种代谢、遗传等路径图可检索参于各种路径的基因,KEG

20、G主页http:/www.genome.ad.jp/kegg/点击“PATHWAY”,“PATHWAY”网页点击任何代谢路径，如糖酵解/糖原异生途径（Glycolysis/Gluconeogenesis),检索Genetic Information Processing,KEGG主页点击“PATHWAY”,“PATHWAY”网页点击任何遗传信息路径，如 Protein export 路径,可以查看参加这一路径蛋白质的信息,检索Environmental Information Processing,KEGG主页点击“PATHWAY”,“PATHWAY”网页点击任何Environmental I

21、nformation Processing 路径，如 MAPK signaling pathway 路径,可以查看与这一路径相连的其它信号路径或参加这一路径的蛋白质信息,检索Celluar Processes,KEGG主页点击“PATHWAY”,“PATHWAY”网页点击任何Cellular Processes 路径，如 Cell cycle 路径,可以查看与这一路径相连的其它信号路径或参加这一路径的蛋白质信息,（2）PKR (Protein Kinase Resource)http:/www.kinasenet.org/pkr/Welcome.do,多种检索内容,已知蛋白激酶的序列比较蛋白激

22、酶分类蛋白激酶的三维结构与疾病相关的蛋白激酶其它内容,5、物种分类数据库,物种分类,界（Kingdom）门（Phylum）纲（Class）目（Order）科（Family）属（Genus）种（Species）,每一分类等级下可加设亚级（Sub-），如亚门、亚纲、亚科等。每一分类等级上可加设总级（Super-），如总纲、总目、总科等。,动物界（Animal）脊索动物门（Chordata）脊椎动物亚门（Vertebrata）哺乳纲（Mammalia）啮齿目（Rodentia）鼠科（Muridae）小家鼠属（Mus）小家鼠种（musculus）,举例：,Mouse：Mus

23、 musculus Human：Homo sapiens Arabidopsis：Arabidopsis thaliana,Poplars: Populus trichocarpa (JGI)Pine(火炬忪): Pinus taeda The Pine Genome Initiative (http:/pinegenomeinitiative.org/)Eucalyptus(桉树): Eucalyptus globulus (blue gum) The International Eucalyptus Genome Network (http:/www.fabinet.up.ac.za/eu

24、cagen),几个林木基因组,Papaya(番木瓜) ：Carica papaya http:/asgpb.mhpcc.hawaii.edu/papaya/,Taxonomy http:/www.ncbi.nlm.nih.gov/Taxonomy/taxonomyhome.html,拟南芥系谱（lineage）各个物种的系谱树,在NCBI Entrez Taxonomy Homepage网页点击“tree”,在“tree”网页点击任一物种名，如“Eukaryota”,真核生物的系谱树,6、文献数据库,各种杂志、书刊上发表的文章大多数有摘要,（1）PubMedhttp:/www.ncbi.nl

25、m.nih.gov/PubMed/,美国国家医学图书馆的数据库医学分子生物学基础生物学4800 多种刊物，来源于70多个国家刊物年限：60年代中期至今,（2）OMIM (Online Mendelian Inheritance in Man),NCBI 的数据库人类基因遗传疾病每天更新数据,http:/www.ncbi.nlm.nih.gov/Omim/ 检索网页,（3）Agricolahttp:/agricola.nal.usda.gov/,美国农部农业图书馆的数据库农业类刊物,7、向数据库提交和修改核苷酸和蛋白质序列,提交：Submission 修改：Update,数据库中的数据由大家无偿

26、提供，共同享用,（1）向 GenBank提交或修改核苷酸序列,用 BankIt 功能提交序列,网上直接提交，简单方便提交后立刻得到临时编号一周内得到 Accession number,用Update 功能修改 GenBank 中的序列和相关信息,修改一次，version 的编号就进一位,用 Sequin 方法提交序列,可下载的电子表格自动确定 CDS、ORF 和查找重复序列,（2）向 SWISS-PROT 提交或修改蛋白质序列,网上直接操作只接收用蛋白质直接测序的序列由核苷酸序列翻译得到的蛋白质序列将进入TrEMBL,JGI,animals,Ensembl,数据库检索,检索数据库的方法,用关键

27、词或词组进行数据库检索(Text-based database searching),用核苷酸或蛋白质序列进行数据库检索(Sequence-based database searching),关键词或词组为基础的数据库检索,关键词,检索体系,检索须知（1）,连接词 AND, OR, NOTrice AND enzymerice AND enzyme NOT kinaseretrotransposon OR retroelement,用引号将两个单词组成一个词组“disease resistance”disease resistance = disease AND resistance,检索须知

28、（2）,wild card“*”放在单词后使检索范围扩大，但专一性降低Wan* = 所有以 Wan 开头的单词enzyme* = enzyme + enzymes,1. Entrez,http:/www.ncbi.nlm.nih.gov/Entrez/ NCBI 的检索体系优点：三种检索体系中最容易操作的体系缺点：检索范围有限,8大类35个与 Entreze 体系相连的数据库,Nucleotide Sequence Databases (8)CoreNucleotide, EST, GSS, SNP, Gene, HomoloGene, UniSTS, PopSet Protein Seq

29、uence Databses (2)Protein, Protein Clusters Structure Databases (4)Structure, PubChem Compound, 3D Domains, CDD Taxonomy Databases (1)Taxonomy,Genome Databases (2),Genomes, Genome Project Expression Databases (4)UniGene, GEO Profiles, GEO DataSets, GENSAT Literature Databases (9)PubMed, PubMed Centr

30、al, Site Search, Books, OMIM, OMIA, Journals, NLM Catalog, MeSH,Other Databases (5),Probe, dbGaP, PubChem Substance, Cancer Chromosomes, PubChem BioAssay,Entrez主页http:/www.ncbi.nlm.nih.gov/Entrez/,Entrez系统中部分数据库之间的连接,检索方法（1）：数据库之间检索,NCBI主页选择“Entrez Home”或Entrez主页，输入关键词,各个数据库中检索到的信息数量,点击相应数据库查看信息目录，每

31、一条信息与其它数据库的相关信息链接,检索方法（2）：选择数据库检索,NCBI主页选择数据库，输入关键词,检索到的信息目录，每一条信息与其它数据库的相关信息链接,查看信息内容,选择数据库后，可选择在这一数据库中的检索内容、时间范围、分子类型、基因位点等,检索到的信息目录,点击“Limits”修改检索时间范围,点击“Go”检索选择时间范围内的数据,分子量检索,检索一个分子量为2002的蛋白质，输入“2002MOLWT”，结果目录，详细内容与其他检索词相结合，如检索人类分子量为2002的蛋白质，输入“2002MOLWT AND humanORGN”,其他专一检索,关键词栏目缩写或全名，如“2002

32、MOLWT或2002molecular weight 检索在“Keywords”栏目中出现“kinase”的蛋白质数据，输入“kinaseKeyword”，结果目录,范围检索,检索分子量在20022009之间的蛋白质，输入“2002:2009 Molecular Weight ”，结果的详细内容检索核苷酸长短在30004000之间的DNA，输入“3000:4000SLEN”，结果目录检索注册号在AF123456AF123478之间的核苷酸数据，输入AF123456:AF123478Accession number，结果目录,2. SRS (Sequence Reterieval Syste

33、m),SRS（http:/srs.ebi.ac.uk/）是一个开放的数据库查询系统，不同的SRS系统（版本）可以根据需要安装不同的数据库 European Bioinformatics Institute (EBI) 的检索体系优点：检索面宽缺点：操作复杂,17大类194个数据库与 SRS 体系相连,Literature, Bibliography and Reference databases Nucleotide sequence databases Uniprot Universal Protein Resource Other protein sequence databases

34、Deprecated Protein Databases Nucleotide related databases Protein function databases Protein structure databases Enzymes, reactions and metabolic pathway databases,17大类194个数据库与 SRS 体系相连（续）,Mutation and SNP databases Gene ontology resources Biological Resources Catalogues Mapping databases Other data

35、bases User owned databases Application result databases EMBOSS result databases,SRS基本检索规则,与常用检索规则不同的检索规则,用“|”代表“OR”，用“&”代表“AND”，用“!”代表“NOT”,数字和日期检索,片段长度检索时用“:”代表或，用“!”代表；如“12:”表示12，“:12”表示12，“!12:”表示12，“:!12”表示12，12:15表示12而15 可以识别两种日期格式：YYYYMMDD或DD-MMM-YYYY；如20020619或19-Jun-2002,索引检索（index search）,

36、由数据库名、域名和检索词三部分组成，数据库和域名之间用“-”连接，域名与检索词之间用“:”（字符串检索）或“#”（范围检索）分开，如：,pir-des:elastase表示在蛋白质数据库PIR的des（description）域搜索关键词“elastase” swissprot-date#20010415:200220414表示在蛋白质数据库SWISS-PROT中检索从2001年4月15日到2002年4月14日的所有记录 swissprot swissnew sptrembl-des:kinase表示在SWISS-PROT、SWISSNEW和SPtrEMBL三个数据库中的des域搜索关键词“k

37、inase”,检索方法（1）：快速检索,操作简单，检索数据库有限适用于目标明确的检索,在SRS主页选择数据库种类，输入关键词,检索到的信息目录，每一条信息与其它数据库的相关信息链接,查看信息内容,检索方法（2）：深入检索,操作稍微复杂，可以检索所有数据库适用于范围广泛的检索,在SRS主页点击“Library Page”,在“Library Page”网页选择数据库，然后点击“Query Form”,在“Query Form”网页输入关键词检索,检索到的信息目录，每一条信息与其它数据库的相关信息链接,3. DBGET (Integrated database retrieval system

38、),http:/www.genome.ad.jp/dbget/ 日本的检索体系优点：与 Kyoto Encyclopedia of Genes and Genomes(KEGG) database 相连操作简单缺点：检索面较 SRS 和 Entrez 窄 DBGET与41个数据库相连,检索方法（1）,在DBGET主页（默认选择所有数据库）或选择数据库后输入关键词,查看检索到的信息目录,查看信息详细内容,检索方法（2）,在DBGET主页选择并点击一个数据库,在选择的数据库网页输入关键词检索,查看检索到的信息目录,查看信息详细内容,不能总是得到你所需要的信息,关键词的使用retrotransp

39、oson retro-transposon数据库所包含数据的多少和范围不同的数据库包含内容有限关键词的拼写错误,查询GenBank数据库的目的,2. 己通过实验手段获得了某个或某些新的序列，希望先对其进行简单的序列注释；或者利用已知序列去搜索其它基因组中的同源基因等等。,1. 自己对某个基因感兴趣，但目前所研究材料中尚没有相关的信息，需要以其它亲缘关系较近的物种中已测序或已提交了的该基因的序列为参考，设计引物，在目标基因组中钓取该基因；,例子：已知水稻中已克隆了与细胞程序性死亡相关的重要基因LSD1，但目前小麦中尚无该基因的相关信息，就可通过查询GenBank数据库的方式，先找出水稻LSD1基

40、因的序列，然后利用Primer5等软件设计引物，通过RT-PCR等方法完全有可能在小麦中分离得到相应的基因。,文献检索,PubMed,http:/www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=PubMed,PubMed is a service of the U.S. National Library of Medicine that includes over 17 million citations from MEDLINE and other life science journals for biomedical articles back to

41、the 1950s. PubMed includes links to full text articles and other related resources.,PubMed中的一些文献标识,PubMed,(riceTitle OR Oryza sativaTitle) AND genomeTitle AND 2007Publication Date,PubMed,(riceTitle OR Oryza sativaTitle) AND genomeTitle AND 2007Publication Date,PubMed附加工具栏,Oryza sativa,BioMail,http:/www.biomail.org/,（三）上机操作,1. 熟悉各种数据库 2. 重点了解 GenBank 和 SWISS-PROT的各种功能和适用范围,3. 利用PubMed数据库查询相关科技文献,

展开阅读全文