1、NCBI (National Center for Biotechnology Information), 美国国家生物技术信息中心urlhttp:/www.ncbi.nlm.nih.gov/urlNCBI 是 NIH 的国立医学图书馆(NLM)的一个分支。NCBI 提供检索的服务包括:1GenBank(NIH 遗传序列数据库):一个可以公开获得所有的 DNA 序列的注释过的收集。GenBank 是由 NCBI 受过分子生物学高级训练的工作人员通过来自各个实验室递交的序列和同国际核酸序列数据库(EMBL 和 DDBJ)交换数据建立起数据库的。它同日本和欧洲分子生物学实验室的 DNA 数据库共同
2、构成了国际核酸序列数据库合作。这三个组织每天交换数据。其中的数据以指数形式增长,最近的数据为它已经有来自 47000 个物种的 30 亿个碱基。2Molecular Databases(分子数据库):Nucleotide Sequence(核酸序列库):从 NCBI 其他如 Genbank 数据库中收集整理核酸序列,提供直接的检索。Protein Sequence (蛋白质序列库):与核酸类似,也是从 NCBI 多个不同资源中编译整理的,方便研究者的直接查询。Structure(结构)- 关于 NCBI 结构小组的一般信息和他们的研究计划,另外也可以访问三维蛋白质结构的分子模型数据库(MMDB
3、)和用来搜索和显示结构的相关工具。MMDB:分子模型数据库 一个关于三维生物分子结构的数据库,结构来自于 X-ray 晶体衍射和 NMR 色谱分析。Taxonomy(分类学)NCBI 的分类数据库,包括大于 7 万余个物种的名字和种系,这些物种都至少在遗传数据库中有一条核酸或蛋白序列。其目的是为序列数据库建立一个一致的种系发生分类学。3Literature Databases(文献数据库)(1)PubMed 是 NLM 提供的一项服务,能够对 MEDLINE 上超过 1200 万条的上世纪六十年代中期至今的杂志引用和其他的生命科学期刊进行访问,并可以连接到参与的出版商网络站点的全文文章和其他相
4、关资源。(2)PMC/PubMed Center:也是 NLM 的生命科学期刊文献的数字化存储数据库,用户可以免费获取 PMC 的文章全文,除了部分期刊要求对近期的文章付费。(3)OMIM(孟德尔人类遗传):有关人类基因和无序基因的目录数据库由Victor A.McKusick 和他的同事共同创造和编辑的,由 NCBI 网站负责开发,其中也包括对 MEDINE 众多资源和 Entrez 系统的序列记录,以及 NCBI 中其他有关资源的链接。(4)Books:NCBI 的书库不断收集生物医学方面的书籍,提供这些书籍的出版信息、摘要、目录和全文的连接,用户可以直接在检索文本框内输入一个观念就可以查
5、询。4NCBI 提供的附加的软件工具有:开放阅读框寻觅器(ORF Finder),电子 PCR,和序列提交工具 Sequin 和BankIt。所有的 NCBI 数据库和软件工具可以从 WWW 或 FTP 来获得。NCBI 还有E-mail 服务器,提供用文本搜索或序列相似搜索访问数据库一种可选方法。 NCBI 网站上还提供了一些诸如研究热点问题、研究小组情况、教育培训、联系方式等信息,还提供了到 NIH、NLM 等的链接。使用方法:用户可以免费登陆 NCBI 的网站,NCBI 为使用者提供了方便的检索系统和检索方法:1Entrez 是 NCBI 为用户提供整合所有数据库的访问序列,定位,分类,
6、和结构数据的搜索和检索工具系统,同时也提供序列和染色体图谱的图形视图。用户进入系统或者进入任意一个数据库,都会看到简单检索的界面,选择数据库输入关键词即可进行查询。Entrez 也提供条件限制和高级检索、布尔逻辑查询。使用新的 Linkout 服务,外部资源可以被链接到 Entrez 记录。2BLAST 是一个 NCBI 开发的序列相似搜索程序,还可作为鉴别基因和遗传特点的手段。BLAST 能够在小于 15 秒的时间内对整个 DNA 数据库执行序列搜索。NCBI Educationhttp:/www.ncbi.nlm.nih.gov/Education/index.html网址详情:这是 NC
7、BI 在线教育资源的索引页,从这里出发你会找到 NCBI 提供的教学资源,这些教程不仅囊括了 NCBI 网站提供的最常用的工具和数据库(BLAST, Entrez, PubMed, NCBI News,Resource publications ,Map Viewer exercises,Structure ,NCBI Handbook)的使用方法和信息,还有一些相关的分子生物学的基础入门知识(NCBI science primer.)。教程大多不仅有文字图片还有动画,直观易懂,目的就是一个让大家尽可能快而有效的掌握好 NCBI 的使用,在这个聚宝盆里淘到真金。当然您如果想对所有 NCBI 的
8、数据库和工具有更透彻深入的了解,请绝对不要错过共 24 章的 NCBI 手册(NCBI Handbook)urlhttp:/www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=handbook/urlGenBank 数据库简介1. GenBank 属于一个序列数据库的国际合作组织,包括 EMBL 和 DDBJ。是NIH 遗传序列数据库,一个所有可以公开获得的 DNA 序列的注释过的收集。GenBank 同日本和欧洲分子生物学实验室的 DNA 数据库共同构成了国际核酸序列数据库合作。唯一人类基因序列集合(UniGene),人类基因组基因图谱,分类学浏览器,同国立癌症研究
9、所合作的癌症基因组剖析计划(CGAP)等数据库。GenBank 以指数形式增长,核酸碱基数目大概每 14 个月就翻一个倍。2. 纪录样本 - 关于 GenBank 的各个字段的详细描述,以及同 Entrez 搜索字段的交叉索引。3. 访问 GenBank - 通过 Entrez Nucleotides 来查询。用 accession number,作者姓名,物种,基因/蛋白名字,还有许多其他的文本术语来查询。关于 Entrez 更多的信息请看下文。用 BLAST 来在 GenBank 和其他数据库中进行序列相似搜索。用 E-mail 来访问 Entrez 和 BLAST 可以通过 Query
10、和 BLAST 服务器。另外一种选择是可以用 FTP 下载整个的 GenBank 和更新数据。4. 增长统计 - 参见公布通知的 2.2.6(每个分类的统计),2.2.7(每个物种的统计),2.2.8(GenBank 增长)小节。5. 公布通知,最新 - 最近和即将有的变化,GenBank 的分类,数据增长统计,GenBank 的引用。6. 公布通知,旧 - 同上相同,是过去公布的统计。7. 遗传密码 - 15 个遗传密码的概要。用来确保 GenBank 中纪录的编码序列被正确的翻译。向 GenBank 提交数据 :1. 关于提交序列数据,收到 accession number,和对纪录作更新
11、的一般信息。2. BankIt - 用于一条或者少数条提交的基于 WWW 的提交工具软件。(请在提交前用 VecScreen 去除载体)3. Sequin - 提交软件程序,用于一条或者很多条的提交,长序列,完整基因组,alignments,人群/种系/突变研究的提交。可以独立使用,或者用基于 TCP/IP 的“network aware”模式,可以链接到其他 NCBI 的资源和软件比如Entrez 和 PowerBLAST。(请在提交前用 VecScreen 去除载体)4. ESTs - 表达序列标签,短的、单次(测序)阅读的 cDNA 序列。也包括来自于差异显示和 RACE 实验的 cDN
12、A 序列。5. GSSs - 基因组调查序列,短的、单次(测序)阅读的 cDNA 序列,exon trap 获得的序列,cosmid/BAC/YAC 末端,及其他。6. HTGs - 来自于大规模测序中心的高通量基因组序列,未完成的(阶段0,1,2)和完成的(阶段 3)序列。(注意:完成的人类的 HTG 序列可以同时在 GenBank 和 Human Genome Sequencing 页面上访问。)7. STSs - 序列标签位点。短的在基因组上可以被唯一操作的序列,用于产生作图位点。8. 注:SNPs - 人类的和其他物种的遗传变异数据可以提交到 NCBI 数据库的单核苷酸多态性库中(db
13、SNP)。国际核苷酸序列数据库合作组织 :1. GenBank,DDBJ,EMBL - 合作计划的概述,并链接到相应的主页。GenBank,DDBJ(DNA Data Bank of Japan),and EMBL (European Molecular Biology Laboratory)数据库共享的数据是每天都交换的,因此他们是相等的。数据纪录的格式和搜索方式可能会不一样,但是 accession number,序列数据和注解都是一模一样的。即,你可以用 accession number U12345 在 GenBank,DDBJ 或 EMBL 中查找相应纪录,得到的结果是完全一样的序列
14、数据,参考内容等等2. DDBJ/EMBJ/GenBank 特性表 特性表格式和标准被合作数据库用在序列记录的注释上,使得数据共享成为可能,包括详细的描述生物特性和特性限定语的附录,以及 IUPAC 规定的核苷酸和氨基酸的代号。FTP GenBank and Daily Updates:1. GenBank 普通文件格式 参见 GenBank 记录样本和在 GenBank 公布通知中的详细描述,下载大多数最近的完全公告和日常积累或非积累更新数据。2. ASN.1 格式 摘要句法记号 1,国际标准组织(ISO)数据表示格式,下载大多数最近的完全公告和日常积累或非积累更新数据。3. FASTA 格
15、式 定义行号后只跟随序列数据(示例),参见描述数据库的 readme 文件,包括 nt.Z(每天更新的非冗余 BLAST 核酸数据库,包括GenBank+EMBL+DDBJ+PDB 序列,但是不包括 EST, STS, GSS, or HTGS 序列),nr.Z(每日更新的非冗余蛋白质),est.Z, gss.Z, htg.Z, sts.Z,和其它文件。分子数据库:1. 核酸序列1、 Entrez 核酸: 用 accession number,作者姓名,物种,基因/蛋白名字,以及很多其它的文本术语来搜索核酸序列记录(在 GenBank + PDB 中)。更多的关于 Entrez 的信息见下。如
16、果要检索大量数据,也可使用 Batch Entrez(批量 Entrez)。2、 RefSeq : NCBI 数据库的参考序列。校正的,非冗余集合,包括基因组 DNA contigs,已知基因的 mRNAs 和蛋白,在将来,整个的染色体。Accession numbers 用 NT_xxxxxx, NM_xxxxxx, NP_xxxxxx, 和 NC_xxxxxx 的形式来表示。3、 dbEST :表达序列标签数据库,短的、单次(测序)阅读的 cDNA 序列。也包括来自于差异显示和 RACE 实验的 cDNA 序列。4、 dbGSS :基因组调查序列的数据库,短的、单次(测序)阅读的 cDNA
17、序列,exon trap 获得的序列,cosmid/BAC/YAC 末端,及其他。5、 dbSTS :序列标签位点的数据库,短的在基因组上可以被唯一操作的序列,用于产生作图位点。6.、 dbSNP :单核苷酸多态性数据库,包括 SNPs,小范围的插入/缺失,多态重复单元,和微卫星变异。2. 完整的基因组 :1、 参见下面 Genome 和 Maps 部分,包括各种物种资源,人,小鼠,大鼠,酵母,线虫,疟原虫,细菌,病毒,viroids,质粒。2、 发 UniGene : 被整理成簇的 EST 和全长 mRNA 序列,每一个代表一种特定已知的或假设的人类基因,有定位图和表达信息以及同其它资源的交
18、叉参考。序列数据可以以 cluster 形式在 Unigene 网页下载,完整的数据可以从FTP 站点 repository/UniGene 目录下下载。1) 人类:UniGene2) 小鼠:UniGene3) 大鼠:UniGene4) 斑马鱼:UniGene3、 BLAST :将你的序列同核酸库中的的序列比较,检索相似的序列。(更详细的信息见下面 Tools/Sequence 相似搜索部分)蛋白序列 :1、 Entrez 蛋白 :用 accession number,作者姓名,物种,基因/蛋白名字,以及很多其它的文本术语来搜索蛋白序列记录(在 GenPept + Swiss-Prot + P
19、IR + RPF + PDB 中)。更多的关于 Entrez 的信息见下。如果要检索大量数据,也可使用 Batch Entrez(批量 Entrez)。 RefSeq NCBI 数据库的参考序列。Curated, 非冗余集合包括基因组 DNA contigs,已知基因的 mRNAs 和蛋白,在将来,整个的染色体。Accession numbers 用 NT_xxxxxx, NM_xxxxxx, NP_xxxxxx, 和 NC_xxxxxx 的形式来表示。 FTPGenPept 下载“genpept.fsa.Z”文件,这个文件包含了从 GenBank/EMBL/DDBJ 记录中翻译过来的 FAS
20、TA 格式的氨基酸序列,这些记录都有一到两个 CDS 特性的描述。2、 完整基因组 :参见下面 Genome 和 Maps 部分,包括各种物种资源,人,小鼠,大鼠,酵母,线虫,疟原虫,细菌,病毒,viroids,质粒。1) Entrez 基因组 :提供了一个编码区的概要和各种物种的分类表(TaxTable)。编码区概要列出了在基因组中所有的的蛋白,并提供链接到FASTA 文件和 BLAST。分类表总结了蛋白 BLAST 分析的结果,建议他们的可能功能,并用颜色编码的图来显示物种同其它物种之间的关系(参见下面Genomes和 Maps,部分 Entrez 基因组的一般描述)2) FTP 基因组蛋
21、白 :从 ftp 站点的 genbank/genomes 目录下下载各种物种的 FASTA 格式的氨基酸序列*.faa 和蛋白表文件*.ptt。参见 readme 文件。蛋白表也可以在 Entrez 基因组中看到。3、 PROW : Web 上的蛋白资源,关于大约 200 种人类的 CD 细胞表面分子的简短官方向导。互相检索,为每个 CD 抗原提供大约 20 中标准信息的分类(生化功能,配体,等等)4、 BLAST : 将你的序列同蛋白库中的的序列比较,检索相似的序列。(更详细的信息见下面 Tools/Sequence 相似搜索部分)结构:1、 结构主页 关于 NCBI 结构小组的一般信息和他
22、们的研究计划,另外也可以访问分子模型数据库(MMDB)和用来搜索和显示结构的相关工具。2、 MMDB:分子模型数据库 一个关于三维生物分子结构的数据库,结构来自于 X-ray 晶体衍射和 NMR 色谱分析。MMDB 是来源于 Brookhaven 蛋白数据库(PDB)三维结构的一部分,排除了那些理论模型。MMDB 重新组织和验证了这些信息,从而保证在化学和大分子三维结构之间的交叉参考。数据的说明书包括生物多聚体的空间结构,这个分子在化学上是如何组织的,以及联系两者的一套指针。利用将化学,序列,和结构信息整合在一起,MMDB 计划成为基于结构的同源模型化和蛋白结构预测的资源服务。MMDB 的记录
23、以 ASN.1 格式存储,可以用 Cn3D, Rasmol, 或 Kinemage 来显示。另外,数据库中类似的结构已经被用 VAST 确认,新的结构可以用 VASTsearch 来同数据库进行比较。3、 Cn3D “See in 3-D”, 一个用于 NCBI 数据库的结构和序列相似显示工具,它允许观察 3-D 结构和序列结构或结构结构同源比较。Cn3D 用起来就象你浏览器上的一个帮助工具。4、 VAST 矢量同源比较搜索工具一个在 NCBI 开发的计算算法,用于确定相似的蛋白三维结构。每一个结构的“结构邻居”都是预先计算好的,而且可以通过 MMDB 的结构概要页面的链接访问。这些邻居可以用
24、来确认那些不能被序列比较识别的远的同源性。5、 VAST 搜索 结构结构相似搜索服务。比较一个新解出的蛋白结构和在 MMDB/PDB 数据库中的结构的三维坐标。VAST 搜索计算一系列可能会被交互浏览的结构邻居,用分子图形来观察重叠和同源相似。分类学 :1、 NCBI 的分类数据库主页 关于分类计划的一般信息,包括分类资源和同 NCBI 分类学家合作的外部管理者的列表。2、 分类浏览器 搜索 NCBI 的分类数据库,包括大于 70000 个物种的名字和种系,这些物种都至少在遗传数据库中有一条核酸或蛋白序列。可以检索一个特定种或者更高分类(如属,科)的核酸,蛋白,和结构记录。如果有新物种的序列数
25、据被放到数据库中,这个物种就北加到(分类)数据库中。NCBI的分类数据库的目的是为序列数据库建立一个一致的种系发生分类学。文献数据库概要 :1、 PubMed 一个关于生物医药科学的检索系统,包括引用,摘要,和杂志的索引术语。它包括直接由出版商提供给 NCBI 的文献引用以及链接到在出版商网址上的全文的 URLs。PubMed 包括 MEDLINE 和 PREMEDLINE 的完整内容。它还包括一些被 MEDLINE 认为超出范围的文章和杂志,(这些文章或杂志)由于内容或在某一时期不在索引范围内。因此 PubMed 是比 MEDLINE 的更大的集合。2、 杂志浏览器 允许你去查找收录到 Pu
26、bMed 系统的杂志的名字,MEDLINE 的缩写,或 ISSN 号码。3、 PubRef(开发中) 一个关于来自于广大范围的科学杂志的数目记录,和链接到出版商网址的全文。PubRef 包含了 PubMEd,加上了来自其它学科的杂志出版商提供的引用和摘要。因此它是比 PubMed 更大的集合。这个计划的启动是因为 NAS 要求为科学领域的核心刊物提供一个“白皮书”服务。4、 PubMed 中心(开发中) PubMed 中心是一个无障碍的 NIH 资源,用于在生命科学领域中同业互查的基础研究报告。从 2000 年一月开始接受杂志文章。所有在 PubMed 中心的材料将由目前任一主要的摘要和索引服
27、务中列出的杂志提供,或者在编辑委员会中拥有 3 个以上有主要资金机构的研究经费的拥有人的杂志提供。5、 OMIM 在线人类孟德尔遗传经常更新的人类基因和遗传失调的目录,有链接到其它相关的文献参考,序列记录,和相关数据库。6、 书籍 同书籍出版商合作 NCBI 为网络改编了教科书,并把他们链接到 PubMed生物医药书目数据库。这是为了给 PubMed 提供背景信息,这样使用者可以探究在 PubMed 搜索结果中不熟悉的概念。目前收录的书有:7、 Molecular Biology of the Cell, 3rd ed. Alberts B., Bray D., Lewis J., Raff
28、M., Roberts K., Watson J.D., 1994, Garland Publishing.8、 外部链接 一个登记服务,用于建立从在 Entrez 中的特定的文章,杂志,或生物数据到外部网址的链接。第三方可以提供一个 URL,资源名字,关于他们网址的简要的描述,和关于从 NCBI 数据的哪里他们希望建立链接的详细说明。这个详细说明可以用对 Entrez 有效的布尔查询来写,也可以用特定的文章或序列的标志列表来写。这样 NCBI PubMed 的用户将可以通过“NCBI 小房间”服务(开发中)来选择哪个外部链接在他们的搜索中是可见的。9、 引用匹配 允许你找到任何一篇在 Pub
29、Med 数据库中的文章的PubMed ID 或 MEDLINE UID,给出书目信息(杂志,卷,页码等)。10、 单篇文章的引用匹配。11、 许多文章的批量引用匹配。12、 E-mail 引用匹配也是可以的,也可以用于单篇或许多文章。如果要获得帮助文件,给email=citation_matcherncbi.nlm.nih.govcitation_matcherncbi.nlm.nih.gov/email写一封只有内容为 HELP 的 E-Mail。Genomes and Maps Overview:1、 Entrez 基因组:人,小鼠,大鼠,酵母,线虫,疟原虫,细菌,病毒,viroids,质
30、粒,和真核细胞器。2、 Entrez 基因组(各种物种)3、 Entrez 基因组 超过 800 种在 GenBank 中被完整测序的物种,包括大于 500 种病毒,25 种细菌,酵母,和许多 viroids,质粒,和细胞器。还包括正在进行中的基因组,比如人,小鼠,线虫,疟原虫,果蝇,利什曼原虫,水稻,和玉米。提供完成的基因组/染色体的图形概览,并可以探究那些逐步细化的区域。也提供那些已经被 NCBI 工作人员分析过的物种的编码区的摘要和TaxTables。另外,Entrez Map Viewer,Entrez 基因组的一个软件组成部分,提供整合的果蝇(细胞遗传学和序列图谱)和人类(细胞遗传学
31、,遗传连锁,序列,放射杂交,和其它图谱)的染色体图谱的浏览。4、 通过每个物种的 Entrez 基因组页面来下载350kb 的基因组。5、 通过 NCBI ftp 站点来下载350kb 的基因组参见在genbank/genomes 目录下的 readme 文件,ftp 链接在每个物种的 Entrez 基因组页面上也有。NCBI 站点地图-其他基因组数据介绍:1、 小鼠基因组1) 小鼠基因组资源向导 :把从各个中心来的各种小鼠相关的资源整合在一起,包括序列,图谱,和克隆信息以及指向小鼠种系和突变资源的指针。2) 小鼠基因组测序:小鼠基因组计划的测序进展,HTG 序列 contigs(可以用大小和
32、染色体号来浏览)由测序中心的数据建立,可以 contig 或染色体的形式来下载。3) 小鼠 UniGene :被整理成簇的 EST 和全长 mRNA 序列,每一个代表一种特定已知的或假设的基因,有定位图和表达信息以及同其它资源的交叉参考。序列数据可以以 cluster 形式在 Unigene 网页下载,完整的数据可以从 FTP 站点 repository/UniGene 目录下下载4) 位点链接(LocusLink) :为校正过的序列和遗传位点的描述信息提供一个单次查询界面。LocusLink 给每个位点发布一个稳定的 ID,并提供官方的命名,序列 accesssion number, Uni
33、gene 簇,图谱信息,和相关的网址。LocusLink 是 NCBI,人类基因命名委员会,OMIM 和其它组织的合作结果。LocusLink 目前包含人类,小鼠,大鼠,斑马鱼,和果蝇的位点,物种可以被分开或合在一起查询。5) Entrez :包括了来自70000 个物种的序列数据,可以用物种字段来限制记录只在小鼠搜索。6) 人类/小鼠同源图 :University of California at Davis 的 M. F. Seldin 建立,一张比较人和老鼠在同源区段 DNA 上基因的表,按在每个基因组上的位置排列。2、 大鼠基因组1) 大鼠 UniGene :被整理成簇的 EST 和全
34、长 mRNA 序列,每一个代表一种特定已知的或假设的基因,有定位图和表达信息以及同其它资源的交叉参考。序列数据可以以 cluster 形式在 Unigene 网页下载,完整的数据可以从 FTP 站点 repository/UniGene 目录下下载2) 位点链接(LocusLink):为校正过的序列和遗传位点的描述信息提供一个单次查询界面。LocusLink 给每个位点发布一个稳定的 ID,并提供官方的命名,序列 accesssion number, Unigene 簇,图谱信息,和相关的网址。LocusLink 是 NCBI,人类基因命名委员会,OMIM 和其它组织的合作结果。LocusLi
35、nk 目前包含人类,小鼠,大鼠,斑马鱼,和果蝇的位点,物种可以被分开或合在一起查询。3、 斑马鱼基因组1) 斑马鱼 UniGene :被整理成簇的 EST 和全长 mRNA 序列,每一个代表一种特定已知的或假设的基因,有定位图和表达信息以及同其它资源的交叉参考。序列数据可以以 cluster 形式在 Unigene 网页下载,完整的数据可以从 FTP 站点 repository/UniGene 目录下下载2) 位点链接(LocusLink) :为校正过的序列和遗传位点的描述信息提供一个单次查询界面。LocusLink 给每个位点发布一个稳定的 ID,并提供官方的命名,序列 accesssion
36、 number, Unigene 簇,图谱信息,和相关的网址。LocusLink 是 NCBI,人类基因命名委员会,OMIM 和其它组织的合作结果。LocusLink 目前包含人类,小鼠,大鼠,斑马鱼,和果蝇的位点,物种可以被分开或合在一起查询。4、 果蝇基因组1) 黑腹果蝇主页 : 提供所有可使用的果蝇资源的概要,用图形的方式显示了染色体,允许你通过 Entrez 基因组浏览器的方法来搜索整个基因组的细胞遗传和序列信息。Entrez 基因组提供了对于一个物种一致的遗传,物理,和序列数据的图形界面。当你用一个基因的代号来搜索时,它给出搜索结果的一个图形的基因组视图,从那你可以放大到你所感兴趣的
37、区域的更详细的图谱视图,并且链接到序列数据和包含更多信息的相关资源。2) 黑腹果蝇基因组测序的状态 :描述了目前在 GenBank,Entrez Genomes,和 FTP 站点中的数据的范围3) Entrez 图谱浏览器 :整合的染色体图谱图谱浏览器是 Entrez 基因组的一个软件组成部分,用来显示一个或多个用共同标记或基因名字互相align 过的图谱,以及用相同序列进行比较过的序列图谱。在人类基因组数据和搜索技巧文件中有关于目前可以使用的果蝇的序列和细胞遗传学图谱。Entrez 图谱浏览器的帮助文件提供了关于如何使用这个工具的一般说明。4) 位点链接(LocusLink): 为校正过的序
38、列和遗传位点的描述信息提供一个单次查询界面。LocusLink 给每个位点发布一个稳定的 ID,并提供官方的命名,序列 accesssion number, Unigene 簇,图谱信息,和相关的网址。LocusLink 是 NCBI,人类基因命名委员会,OMIM 和其它组织的合作结果。LocusLink 目前包含人类,小鼠,大鼠,斑马鱼,和果蝇的位点,物种可以被分开或合在一起查询。5、 线虫基因组Entrez 基因组:染色体的图形表示,可以整个的查看,也可以逐步放大的看。链接到相关的序列数据。6、 酵母基因组1) Entrez 基因组 :染色体的图形表示,可以整个的查看,也可以逐步放大的看。
39、链接到相关的序列数据。2) COGs :相邻类的聚簇 来自于完整基因组的基因家族自然系统。COGs 用比较 21 种完整的基因组的编码的蛋白序列描绘了 17 个主要的种系发生系统。每个 COG 包含至少来自 3 个世系的独立蛋白或蛋白家族的相邻体,所以对应了一个古老的保守 domain。7、 疟原虫基因组1) 疟原虫遗传学和基因组:提供与疟原虫遗传学和基因相关的数据和信息。资源包括物种特异的序列 BLAST 数据库(恶性疟原虫,所有疟原虫,以及弓形虫),基因组图谱,连锁标记,以及遗传学研究信息。链接到其他的疟原虫网站和相关的寄生虫遗传学数据库包括弓形虫。2) Entrez 基因组 恶性疟原虫的
40、染色体全长的图形视图,完整的染色体序列数据(2 和 3),链接到正在进行的染色体的分离数据表(来自于 HB3 X Dd2 杂交的染色体),链接到其他基因组测序中心。3) FTP 站点 (pub/Malaria 目录):用于查找在 DNA 序列中 STS 的电子PCR 疟原虫版。4) FTP 站点 (genbank/genomes 目录):下载各种格式的完整的染色体序列数据(2 和 3),包括 GenBank 的 flat file (*.gbk),GenBank 的概要文件(*.gbs),FASTA 核酸文件(*.fna),FASTA 氨基酸文件(*.faa),蛋白表(*.ptt)和其他。8、
41、 细菌基因组1) Entrez 基因组 完整细菌基因组的图形表示,可以整个的查看,也可以逐步放大的看。链接到相关的序列数据。对每一个细菌都提供了一个编码区域的概要和 TaxTable。2) 微生物基因组测序计划:完成的和正在进行的测序计划,链接到 NCBI的图形视图和测序中心。3) COGs :相邻类的聚簇 来自于完整基因组的基因家族自然系统。COGs用比较 21 种完整的基因组的编码的蛋白序列描绘了 17 个主要的种系发生系统。每个 COG 包含至少来自 3 个世系的独立蛋白或蛋白家族的相邻体,所以对应了一个古老的保守 domain。4) FTP 站点: 下载各种格式的完整的细菌染色体序列数据,包括 GenBank的 flat file (*.gbk),GenBank 的概要文件(*.gbs),FASTA 核酸文件(*.fna),FASTA 氨基酸文件(*.faa),蛋白表(*.ptt)和其他。5) 微生物基因组 BLAST 数据库 :与完成的和未完成的微生物基因组进行BLAST