1、第一章 DNA、RNA和 蛋白质序列信息资源,DNA、RNA And Protein Sequence Information Resources,生物信息学(bioinformatics),在生命科学研究中发展起来的一门由分子生物学与计算机信息处理技术相结合,以计算机为研究工具对生物信息进行获取、处理、储存、传播、分析、模拟和解释的交叉学科。,生物信息学研究内容,它利用数据库技术和软件技术对大量积累的生物大分子序列数据进行比较和分析,揭示出生物大分子的分子结构、功能和进化关系以及基因组构成与基因表达等生物学事件对生命活动的影响。,生物信息学研究重点,主要体现在基因组学(genomics)和蛋
2、白质组学(proteomics)两方面。它从核酸和蛋白质序列出发,分析序列中与结构、功能相关的生物信息的表达。,生物信息学数据库,生物信息学中的各类数据库几乎覆盖了生命科学的各个领域,如核酸序列数据库,蛋白质序列数据库,蛋白质、核酸、多糖的三维结构数据库,基因组数据库,文献数据库和其他种类数据库。,生物信息学数据库分类,生物信息数据库种类繁多,就目前来看, 大体可以分为四个大类: 1.基因组数据库;2.核酸和蛋白质一级结构序列数据库;3.生物大分子(主要是蛋白质)三维空间 结构数据库;4.根据以上三类数据库和文献资料为基础构建的二次数据库。也称专门数据库、 专业数据库或专用数据库。,一次数据库
3、,第二节 核酸序列数据库 Section 2 Nucleic Acid sequence Databases,自20世纪80年代第一个核酸数据库建立以来,核酸数据库迅速发展。在互联网上不仅有核酸序列数据库,还出现了基因组相关数据库、核酸三维结构数据库、基因表达数据库、人类基因突变及疾病相关数据库、进化相关数据库及其他与核酸有关的数据库。,三大核酸序列数据库,GenBank EMBL DDBJ,特殊类型核酸序列数据库:,非编码RNA数据库(ncRNA); 表达序列标签数据库(dbEST); 序列标签位点数据库(dbSTS); miRBase ; tRNAdb等。,基因组相关数据库:,人类基因组数
4、据库(HGD):Human Genome Diversity Project. 基因组序列数据库(GSDB); 基因组在线数据库(GOLD):Genomes Online Database :a monitor of genome projects world-wide.,核酸三维结构数据库:,核苷酸三维结构数据库(NDB); 普纳大学核酸结构数据库(BNASDB)等。,基因表达数据库:,基因表达库(GEO); 斯坦福微阵列数据库(SMD); ArrayExpress; CGED; GXD; BodyMap 等。,人类基因突变及疾病相关数据库:,人类基因变异数据库(HMGD)、人类遗传双等位基
5、因序列数据库(HGBASE)、人类孟德尔遗传在线(OMIM)、国际单体型计划(HapMap)、人类单核苷酸多态性数据库(dbSNP)、肿瘤基因数据库(TGDB)、疾病关联数据库(GAD)、癌症基因数据库(CGAP、CGCI)、人类表观遗传数据库(HEP)、人类DNA甲基化与癌症数据库(MethylCancer)等。,一、GenBank数据库,GenBank(http:/www.ncbi.nlm.nih.gov/genbank/)是一个综合数据库,该数据库中包含了已经公开的30万余种不同物种生物的核酸序列,这些数据主要来源于全世界不同实验室和大规模测序计划项目。,GenBank是具有目录和生物学
6、注释的核酸序列综合数据库,由美国国家医学图书馆的国家生物技术信息中心构建、维护和管理。该中心位于美国马里兰国家健康研究所(NIH)。GenBank数据库的序列数据来源于序列发现者提交的序列、批量提交的表达序列标签(expressed sequence tag, EST)、基因组测序序列(genome survey sequence, GSS)和其他测序中心提供的高通量数据,还包括美国专利商标局提供的已发表专利的序列数据。,GenBank数据库每天与欧洲分子生物学实验室的核酸序列数据库(European Molecular Biology Laboratory Nucleotide Sequen
7、ce Database,EMBL)和日本的DNA数据库(DNA Data Bank of Japan DDBJ)进行数据交换,以保证数据库内容在全世界范围的同步性。,在NCBI(http:/www.ncbi.nlm.nih.gov/)的主页上提供了进入GenBank的路径、相关检索和分析服务。 通过NCBI的检索系统(Entrez)可以进入GenBank。Entrez检索程序整合了主要的DNA和蛋白序列数据的分类学、基因组、图谱、蛋白结构和结构(功能)域信息,还包括相关的PubMed的生物医学文献信息。 BLAST程序提供GenBank和其他序列数据库中序列相似性搜索服务。,(一)GenBan
8、k数据库结构,1. 依据序列的物种来源分类 2. Genbank记录和分类 2.1 表达序列标签(EST) 2.2 序列标签位点(STS)、基因组勘测序列(GSS)和环境样品序列(ENV) 2.3 高通量基因组(HTG)和高通量cDNA(HTC)序列 2.4 全基因组鸟枪测序序列(WGS) 2.5 转录组鸟枪组合序列,(一)GenBank数据库结构,3. 特殊记录类型 3.1 第三方注释(TPA) 3.2 GenBank CON记录 较小记录组合记录,(二)构建数据库,1直接电子提交 1.1 使用BankIt提交 1.2 使用Sequin和tbl2asn提交 1.3 条形码序列提交 2. 序列
9、标识符和记录号,(三)检索GenBank数据,1. Entrez系统 (http:/www.ncbi.nlm.nih.gov/sites/gquery) 2. 与测序计划检索相关的序列记录 (http:/www.ncbi.nlm.nih.gov/genomeprj) 3. BLAST 序列相似性搜索 (http:/blast.ncbi.nlm.nih.gov/Blast.cgi) 4. 用FTP获取GenBank (http:/ftp.ncbi.nih.gov/genbank),二、EMBL数据库,EMBL建立于1980年,EMBL核苷序列数据库(http:/ www.edi.ac.uk/em
10、bl/)是欧洲主要的核苷序列收集单位,欧洲生物信息中心EBI(即EMBL在德国海德堡的站点)维护这个数据库。 核苷数据来自基因组测序中心、世界各地的科学家、欧洲专利局、以及与合作伙伴DDBJ (Japan)和GenBank (USA)交换的数据。,三、DDBJ数据库,日本DNA数据库(DDBJ)是在亚洲唯一的核酸序列数据库,是搜集研究者公认的测定核酸序列的数据库,并且发放给数据提交者国际认证的核酸序列编号。由于DDBJ每天将搜集的数据与EMBL-Bank/EBI和GenBank/NCBI进行交换,使得三个核酸数据库几乎在任何时候都享有相同数据。DDBJ主要收集来自日本研究者获得的序列数据,但也
11、收集数据和发放编号给任何其他国家的研究者。,四、其他重要的核酸序列数据库,dbEST:dbEST是GenBank中的一个子数据库,包含来源于不同物种的表达序列数据和表达序列标签序列的其他信息。 ncRNAdb:非编码RNA(non-coding RNA ncRNA)数据库旨在提供非编码RNA的序列和功能信息。 miRBase:miRBase序列数据库主要存放已发表的微小RNA(microRNA miRNA)序列和注释的数据库。,第三节 蛋白质序列数据库 Section 3 Protein Sequence Database,随着分子生物学的发展,人们获得了越来越多关于蛋白质序列、结构和功能的信
12、息。世界各国的生物学家和计算机科学家合作利用这些信息构建了蛋白质序列数据库、蛋白质三维结构数据库、蛋白质组数据库(二维凝胶电泳数据库)、信号传导及蛋白质-蛋白质相互作用相关数据库、DNA和蛋白质相互作用数据库等蛋白质相关数据库。,常用的蛋白质序列数据库:,PIR MIPS Swiss-Prot,蛋白质功能、结构域和蛋白质家族有关的数据库:,PROSITE InterPro Pfam ProDom SMART 等,蛋白质三维结构相关数据库:,PDB BioMagResBank SWISS-MODEL Repository ModBase CATH SCOP ReLiBase TOPS SWISS
13、-3DIMAGE BioImage等,蛋白质二维凝胶电泳数据库:,WORLD-2DPAGE Phoretix links,信号传导及蛋白质-蛋白质相互作用相关数据库:,DIP INTERACT ProNet KEGG CANSITE SPAD CSNDB等,DNA和蛋白质相互作用数据库:DPInteract 蛋白质翻译后修饰相关数据库: O-GlycBase、PhosphoBase、RES蛋白质等蛋白质,一、PIR数据库,蛋白质信息库(PIR)(http:/pir.georgetown.edu/pirwww/)是一个支持基因组学、蛋白质组学和系统生物学检索和科学研究的综合公共生物信息学资源。
14、PIR是由美国国家生物医学基金会(NBRF)于1984年建立,帮助研究者确认和解释蛋白序列信息的数据库。 PIR免费为科学界提供包括蛋白序列数据库(PSD)在内的蛋白数据库和分析工具。,PIR信息库资源,PIR主要数据库:,1. UniProt-通用蛋白质资源库 2. iProClass-蛋白质知识整合数据库 3. PIRSF-蛋白质家族分类系统 4. iProLINK-蛋白质文献、信息和知识整合数据库,1.UniProt-通用蛋白质资源库 UniProt(http:/www.uniprot.org/)是存储和链接其他蛋白质数据库的资源库,并且是蛋白质序列和具有综合功能注释目录的中心资源库。使
15、用UniprotKB可以检索准确、可靠的蛋白综合信息。使用UniRef可以减少冗余,加速序列相似性搜索。使用UniParc可以检索存档序列和它们来源的数据库。,2. iProClass-蛋白质知识整合数据库 iProClass(http:/pir.georgetown.edu/iproclass/)提供来自90多个生物学数据库的大量整合数据,包括蛋白ID图谱服务、UniProtKB编注蛋白质摘要描述和筛选UnParc数据库的蛋白质序列。使用iProClass可以检索最新的蛋白质综合信息,包括:功能、转导通路、相互作用、家族分类、基因和基因组、功能注释标准体系(ontology)、文献和分类学信
16、息。使用iProClass还可以检索ID图谱、蛋白质词典和相关序列。,3. PIRSF-蛋白质家族分类系统 PIRSF(http:/pir.georgetown.edu/pirsf/)分类系统概要论述家族的特征,如家族名称、分类分布、分级和功能域结构,以及家族成员,包括功能、结构、传导通路、功能注释标准体系(ontology)和家族分类。利用这些信息可以获得蛋白质的准确功能或预测的功能和该蛋白质所属家族成员共有的其他特征。,4. iProLINK-蛋白质文献、信息和知识整合数据库 iProLINK(http:/pir.georgetown.edu/iprolink/)提供有关注释内容的文献、蛋
17、白质名称词典和其他有助于文献挖掘的人文语言处理技术开发的信息、数据库校正、蛋白质名称标记和功能注释标准体系(ontology)。使用iProLINK可以获得描述蛋白质记录的文本文献资源,在UniProtKB记录(生物词典)中加入蛋白质或基因命名的图谱,获得用于开发文本挖掘算法的注释数据集、挖掘蛋白质磷酸化(RLIMS-P)文献和获得蛋白质功能注释标准体系(ontology)(PRO)信息。,二、MIPS数据库,慕尼黑蛋白质序列信息中心(MIPS)(http:/www.helmholtz-muenchen.de/en/mips),它的重点工作是基因组生物信息学,特别注重基因组信息系统分析,包括应
18、用生物信息学方法注释基因组、表达分析和蛋白质组学方面研究。MIPS支持和维护一系列基因组数据库以及系统,可以提供细菌、真菌和植物基因组比较分析服务。在该站点提供基因组分析工具、数据库检索系统、表达分析、蛋白相互作用等网络服务。,三、其他重要的蛋白质序列数据库:,PRINTS Pfam,(一)PRINTS,PRINTS(http:/www.bioinf.manchester.ac.uk/dbbrowser/PRINTS/index.php)是蛋白基序指纹图综合数据库,每个指纹图都是使用数据扫描程序ADSP或VISTAS序列分析软件包反复优化后定义的。数据库中有两种类型指纹图,根据指纹图的复杂性分
19、为简单和复合指纹图:简单指纹图基本上是单一的基序,而复合指纹图包含多个基序。,(二)Pfam,蛋白质一般是由一个或多个功能区域组成,这些功能区域通常称作域(domain)。在不同的蛋白质中不同的域以不同的组合出现,导致在自然界发现多种多样组成成分的蛋白质。识别出现在蛋白质中的域可以了解蛋白质的功能。 Pfam数据库(http:/pfam.sanger.ac.uk/)是一个大的蛋白质域家族集合,每个家族是用多序列比对和隐马模型(HMMs)分析结果的代表。,第四节 NCBI与EBI Section 4 NCBI and EBI,一、NCBI的简介 二、EBI简介,一、NCBI的简介,作为一个国家分
20、子生物学信息资源,NCBI的使命是开发新的信息技术,帮助理解控制健康和疾病的基本分子和遗传过程。特别是,NCBI肩负建立存储和分析分子生物学、生物化学和遗传学知识的自动系统;提供研究和医学界使用方便的数据库和软件;努力协调搜集国内外生物技术信息;执行分析生物学重要分子结构和功能的先进研究方法。,二、EBI简介,欧洲生物信息学研究所(EMBL-EBI),是欧洲分子生物学实验室(EMBL)的一部分,EMBL-EBI维护世界上最广泛的分子数据库。EMBL-EBI是在全球范围内,努力协调搜集和传播生物学数据的欧洲节点,EMBL-EBI的许多数据库是生物学家们熟知的,包括:EMBL-Bank(DNA和R
21、NA序列)、Ensemble(基因组)、ArrayExpress(基于微阵列的基因表达数据)、UniProt(蛋白质序列)、InterPro(蛋白家族、域和基序)、Reactome(传导通路)和ChEBI(小分子),新的资源帮助研究者不仅了解构成生物体的分子部件,还了解这些部件是如何组合构成系统的。,三、通过Entrez Gene从NCBI获取序列信息,Entrez主要是用于NCBI数据库综合的、基于文本的搜索和检索系统。Entrez综合了科学文献、DNA和蛋白序列数据、3D蛋白质结构和蛋白质域数据、种群研究数据集、表达数据、完整基因组组装和分类学信息,形成一个紧密链接的系统。它用于搜索NCB
22、I链接数据库的检索系统。,Entrez检索系统子数据库,(一)Entrez Gene 检索,Entrez Gene检索到的记录提供关键链接,将图谱、序列、表达、结构、功能、索引文献和同源数据链接在一起构成关键链接。用定义序列、已知的图谱定位和从表型信息推测的基因,为基因分配特有标识符。这些标识符在NCBI的数据库中通用,可以用于注释更新跟踪和相关信息跟踪。Entrez Gene用NCBI参考序列(RefSeqs)覆盖了基因组,还被整合到NCBI的Entrez和E-Utilities系统的索引、查询和检索中。,NCBI检索首页检索窗口的数据库 选项下拉菜单,检索栏(for)输入“IL-2 hum
23、an”,(二)Entrez Gene记录显示格式,当进行检索时,检索结果以摘要(summary)格式显示,每页可显示多条记录,摘要显示的每条记录前有一个选择框,可以选择哪些记录需要显示。显示内容还包括首选名称标志、完整全名、双单词的物种名称(在方括号中)、基因组定位和基因编号。如果基因在已命名的质粒上,那么作为基因定位将给出质粒名称。右侧的Links可以关联到显示相关的Entrez记录,核对希望显示的记录,选择灰色查询条目中的显示选项,可以显示希望显示的相关记录。,Entrez Gene检索结果摘要格式显示页面,Entrez Gene全文报告页面 (前部分),Entrez Gene全文报告页面
24、 (后部分),IL2 mRNA 的Nucleotide数据库记录检索结果显示界面,(三)Nucleotide数据库记录显示格式,Nucleotide数据库记录的显示结果,可以GenBank、FASTA、Graphics和ASN.1格式显示,序列信息通常用FASTA和GenBank两种格式显示,FASTA格式仅包括该序列的简要特征,并以G、A、T、C四种碱基列出核苷酸序列,简单明了。而GenBank格式可显示较完整的基因序列记录,反映核苷酸序列的详细信息。,四、通过SRS从EBI中获取蛋白质序列信息,SRS(http:/srs.ebi.ac.uk/srsbin/cgi-bin/wgetz?-pa
25、ge+quickSearch+-id+76e2D1aC0Ri)是世界上主要的生物信息学、基因组和相关数据整合、分析和显示工具。SRS检索系统是个开放的系统,可以根据不同的需要安装不同的数据库,现在,安装在EBI的数据库有300多个。 SRS有三种检索方式:快速检索、标准检索和批量检索。,SRS开始页面,SRS快速文本检索窗口,SRS检索结果页面显示的检索结果,SRS蛋白质记录详细内容页面,SRS蛋白质序列显示窗口,SRS标准检索页面,SRS标准检索页面检索基因名为“KRAS”蛋白序列输入示意图,SRS标准检索结果输出页面,小 结,本章介绍了生物信息学常用的数据库和重要网站,重点介绍了三大核酸数据库:GenBank数据库、EMBL数据库和DDBJ数据库。 NCBI 的Entrez Gene将分类、基因组、图谱、序列、表达、结构、功能、索引文献和同源数据链接在一起,为用户提供了便捷的检索方式。 EBI的SRS检索系统是世界上主要的生物信息学、基因组和相关数据整合、分析和显示工具。SRS检索系统是个开放的系统,可以根据用户不同的需要安装不同的数据库,便于用户开发具有自己特性的操作平台,尤其在数据分析方面,对于检索的信息可以进行多种方式的分析处理。,