1、 博奥生物有限公司 生物芯片北京国家工程研 究中心 北京市昌平区生命科学园路 18 号 邮编: 102206 电话: 86-10-80726868 传真: 86-10-80726898 网址: http:/ KEGG 数据库中文教程 博奥生物有限公司 生物芯片北京国家工程研 究中心 北京市昌平区生命科学园路 18 号 邮编: 102206 电话: 86-10-80726868 传真: 86-10-80726898 网址: http:/ 快速导航 1. 这篇教程介绍了什么? 2. KEGG 数据库里面有什么? 3. 我如何查询某一特定的代谢途径 (pathway)的信息,例如 Glycolysi
2、s / Gluconeogenesis? 4. 我如何查询某一化合物的信息 ,例如 Pyruvate? 5. 我如何查询 Pyruvate 涉及了哪些生化反应 ? 6. 我如何查询某一基因的信息 ,例如 gltA ? 7. 我如何知道 Bacillus subtilis 是否有 gltA? 8. 我如何查询 gltA 在其他物种中的同源基因 ? 9. 我如何列出某 一代谢途径中涉及的所有的酶?例如 cytrate cycle pathway( TCA 循环) 10. 我如何知道人类的 cytrate cycle 中 pyruvate carboxylase 这种酶有多少化合物与其发生相互作用?
3、 11. 我如何查询人类由 Citrate 生成 Acetyl-CoA 的可能步骤? 12. 我有一条未知的序列,如何查询 KEGG 数 据库中是否有基因或酶与其对应 ?博奥生物有限公司 生物芯片北京国家工程研 究中心 北京市昌平区生命科学园路 18 号 邮编: 102206 电话: 86-10-80726868 传真: 86-10-80726898 网址: http:/ 一 . 简介 代谢 (Metabolism)是指 细胞内发生的各种化学反应的总称 。 一个代谢途径( Metabolic pathway)包括一系列互相联系的反应 (reaction),反应中的酶 ( enzyme)以及反应
4、中的前体或者产物(substrate) 。 随着现代生物信息学的进展,我们可以通过计算机来 展示,以至预测细胞内的代谢途径。 现 在 常 用 的 查 询 代 谢 途 径 的 数 据 库 主 要 包 括 : KEGG(http:/www.genome.jp/kegg/), GenMAPP(http:/www.genmapp.org/), BioRag(http:/www.biorag.org/) 等。本教程主要介绍 KEGG数据库的使用方法。 KEGG( Kyoto Encyclopedia of Genes and Genomes)是由日本京都大学和东京大学联合开发的 数据库,可以 用来 查询
5、代谢途径,酶(或编码酶的基因),产物等,也可以通过 BLAST 比对查询未知序列的代谢途径信息。 KEGG 主要通过 Web 界面进行访问,同样也可以通过本地运行的 Perl 或 java 程序进行访问,使用很方便。 本教程将结合实例来介绍 KEGG 数据库的使用方法,希望能您能通过本教程了解 KEGG 数据库的基本使用方法。 二 . 使用方法 1.首页 打开 KEGG 的首页,我们可以 看到 KEGG 提供的四个主要的数据库(图 1 箭 头所示)。 PATHWAY (代谢途径数据库),可以查询各种代谢途径。 BRITE (代谢通路及同源基因数据库),这个数据与 PATHWAY 数据库不同的是
6、,可以查询酶和底物之间的关系,也可以查询某种酶的同源基因。 GENES (基因数据库), 可以查询不同的基因或基因组的信息。 LIGAND (配体数据库), 可以查询反应 中 各种化合物的信息。 博奥生物有限公司 生物芯片北京国家工程研 究中心 北京市昌平区生命科学园路 18 号 邮编: 102206 电话: 86-10-80726868 传真: 86-10-80726898 网址: http:/ 图 1. KEGG 数据库首页 如果点击 KEGG2 KEGG Table of Contents 这个链接,则会出现一个类似于网站地图的页面,在这个页面上,我们可以查询各数据库的更新信息,也可快速
7、访问 KEGG 提供的各个数据库。 点击 KEGG Organisms 会列出 KEGG 对各物种的代码。 KEGG 使用三个英文小写字母来代表各个物种,例如人类 Homo sapiens,代码是 hsa。再如小鼠 Mus Musculus 则是 mmu。 2. PATHWAY 数据库的使用 在首页上点击 PATHWAY 的链接 (或者先选择 KEGG2,再在出现的表格中 Database 选项下选择 KEGG PATHWAY)。您 就 会看到 KEGG 收录的所有代谢途径信息 (图 2) 。 博奥生物有限公司 生物芯片北京国家工程研 究中心 北京市昌平区生命科学园路 18 号 邮编: 102
8、206 电话: 86-10-80726868 传真: 86-10-80726898 网址: http:/ 图 2. PATHWAY 数据库界面 例 如如果想要查询 Glycolysis / Gluconeogenesis 这个代谢途径 (图 2) 。 1) 从首页,或者 KEGG2 的表格界面中进入 PATHWAY 数据库 2) 点击 Carbohydrate Metabolism 中的 Glycolysis / Gluconeogenesis 新页面即 显示出此途径的信息(图 3A)。方框中表示的是反应中的酶,例如 2.7.1.41,这是酶的 EC number,国际酶学委员会的编号。小圆圈
9、代表的是反应中的化合物,例如 -D-Glucose-1P。箭头代表的是反应的方向。虚线表示此反应可以通过中间产物与其他途径发生 联系 。 或者您也可以通过 Search PATHWAY for 这个选项直接搜索 Glycolysis / Gluconeogenesis的信息。搜索的结果中会显示出满足条件的所有物种的 pathway。 博奥生物有限公司 生物芯片北京国家工程研 究中心 北京市昌平区生命科学园路 18 号 邮编: 102206 电话: 86-10-80726868 传真: 86-10-80726898 网址: http:/ ( A) ( B) 图 3. 代谢途 径图片信息 A: G
10、lycolysis / Gluconeogenesis 途径的全面信息 B:人类中 Glycolysis / Gluconeogenesis 途径的信息 如果想要知道人类的 Glycolysis / Gluconeogenesis 途径的具体信息。 博奥生物有限公司 生物芯片北京国家工程研 究中心 北京市昌平区生命科学园路 18 号 邮编: 102206 电话: 86-10-80726868 传真: 86-10-80726898 网址: http:/ 1) 点击此界面左上角的下拉菜单。 选择人类 Homo Sapiens(human) 2) 点击 Go 即可见图 3B 的画面。绿色的方框代表人
11、类含有这种酶 ,例 3.1.3.9。你也可以通过下拉菜单旁的 Select 按钮自行设置下拉菜单中显示的物种名称。 点击标有 3.1.3.9 的绿色方框,即可显示人类中此酶的信息(图 4)。 Entry 是 KEGG 中此酶的 ID。 Gene name 是酶的简化名。 Definition 包括酶的通用名称和 EC number。 KO 是在 KEGG 数据中这种酶的同源序列号。 Pathway 中列出了这种酶涉及的代谢途径。此外,还有一些其他的信息,例如编码这种酶的基因在基因组中的位置( Position),编码酶的基因序列( NT seq)和蛋白序列( AA seq)等。 图 4. 酶
12、3.1.3.9 的信息 3. LIGAND 数据库的使用 LIGAND 数据库 中,可以查询 到 化合物,反应或者参与反应的酶。 可以在上面的搜索框中进行 名称 查询 ,也可以在下面的 Ligand Relational Database 里进行 配体或 反应关系 的查询 。 例如想要查询数据库中 Pyruvate(丙酮酸盐)的信息 (图 5A) 。 1) 在 Search COMPAND 的 下拉菜单中选择 Name 2) 输入 Pyruvae 3) 点击 Go 就会出现图 5B 的画面 。在给出的结果中 可见 它的 entry number( C00022) ,分子结构,化学式等属性,也可
13、以点击 Entry number 后进入另一个界面查看它更多的信息。 博奥生物有限公司 生物芯片北京国家工程研 究中心 北京市昌平区生命科学园路 18 号 邮编: 102206 电话: 86-10-80726868 传真: 86-10-80726898 网址: http:/ (A) (B) 图 5. LIGAND 数据库界面 及 Search Compound 的使用 再例如,我们需要查询 Pyruvate(丙酮酸盐)所涉及的化学反应的信息 (图 6A) 。 1) 在 Search REACTION 的下拉菜单选择 Reactant Entry 博奥生物有限公司 生物芯片北京国家工程研 究中心
14、 北京市昌平区生命科学园路 18 号 邮编: 102206 电话: 86-10-80726868 传真: 86-10-80726898 网址: http:/ 2) 输入 Pyruvate 的 entry number, C00022 3) 点击 Go 就会出现 Pyruvate 所涉及的反应 (图 6B) 。 ( A) ( B) 图 6. Search REACTION 的使用 博奥生物有限公司 生物芯片北京国家工程研 究中心 北京市昌平区生命科学园路 18 号 邮编: 102206 电话: 86-10-80726868 传真: 86-10-80726898 网址: http:/ 4 GENE
15、S 数据库的使用 GENES 数据库 可以 用来 查询基因及基因组的信息。 例如 想要查询 gltA(柠檬酸盐合成酶) 这种基因的具体信息(图 7A)。 1) 在 Search 的下拉菜单选择 Genes(默认 ,可不选 ) 2) 输入 gltA 3) 点击 Go 在出现的结果中即可查得所有编码这种酶的基因(图 7B)。像是第一个 结 果 eco:b0720,eco 是物种 名( Escherichia coli K-12 MG1655), b0720 是 entry name。 gltA 是基因名,之后还有基因的全称,以及编码的酶的 EC number等。物种名可以通过首页上的 KEGG O
16、rganisms来查询。 再例如 我们想要查询 Bacillus subtilis 中是否有 gltA 这种基因(图 7C)。 1) 在首页的 KEGG Organisms 中找到 Bacillus subtilis 的缩写为 bsu 2) Search Organism 中输入 bsu 3) 再输入 gltA 4) 点击 Go 即可查得相应信息 (A) 博奥生物有限公司 生物芯片北京国家工程研 究中心 北京市昌平区生命科学园路 18 号 邮编: 102206 电话: 86-10-80726868 传真: 86-10-80726898 网址: http:/ (B) (C) 图 7. GENES
17、 数据库界面 及搜索功能的使用 博奥生物有限公司 生物芯片北京国家工程研 究中心 北京市昌平区生命科学园路 18 号 邮编: 102206 电话: 86-10-80726868 传真: 86-10-80726898 网址: http:/ 5.KO 数据库的使用 KO 数据库可以 用来 查询某一基因的同源基因。 例如如果想要查询 gltA 的同源基因 (图 8) 1)从 KEGG 首页进入 BRITE 数据库 2) 点击 进入 KO - Pathway-based classification of orthologs(图 8A) 3) 在出现的页面上选择 Text search(图 8B) 4
18、) 输入 gltA 或者 citrate synthase,按回车键 (图 8C) 这样就会显示出 gltA 的 KO 分类 (KO groups)了 (图 8D)。 需要注意的是基因的 KO groups是按照不同的代谢途径来列出的,所以一个 KO group 可能被列出很多次。点击 KO 序号,即可查看此类同源基因 (图 8E)。 (A) (B) 博奥生物有限公司 生物芯片北京国家工程研 究中心 北京市昌平区生命科学园路 18 号 邮编: 102206 电话: 86-10-80726868 传真: 86-10-80726898 网址: http:/ (C) (D) (E) 图 8. KO
19、数据库的使用 博奥生物有限公司 生物芯片北京国家工程研 究中心 北京市昌平区生命科学园路 18 号 邮编: 102206 电话: 86-10-80726868 传真: 86-10-80726898 网址: http:/ 6. LinkDB 的使用 LinkDB 可以用来查询多个数据库之间的交互信息。 例如,我们想查询 cytrate cycle( TCA 循环)中涉及的所有的酶 (图 9A) 。 1) 在 KEGG 首页上点击 DBGET 2) 然后点击表格上的标题 LinkDB 3) 使用 Single Entry to Database 这个选项 。 需要注意 From 内填入的内容必须符
20、合db:entry 的格式 , cytrate cycle 是属于 PATHWAY 数据库 ,entry number 是 map00020,所以应该填入 PATHWAY:map00020。 (如何查询 Pathway 的信息 ,请参见 2.PATHWAY数据库的使用 ) 4) 后在 To 这个选项上选择需要查询的数据库 Enzyme 5) 点击 Go 即可见到结果(图 9B)。 ( A) 博奥生物有限公司 生物芯片北京国家工程研 究中心 北京市昌平区生命科学园路 18 号 邮编: 102206 电话: 86-10-80726868 传真: 86-10-80726898 网址: http:/
21、( B) 图 9. Single Entry to Database 的使用 再例如 如果我们想知道人类的 cytrate cycle 中 pyruvate carboxylase 这种酶有多少化合物与其发生作用 (如图 10A) 。 1) 使用 Multiple Entries to Database 这个选项 2) 在 From 里输入 cytrate cycle 的代码 pathway:hsa00020,再输入 pyruvate carboxylase在人类中的基因的代码, hsa:5091。 (基因的查询请参见前述 2.GENES 数据库的使用 ) 3) 在 To 选择 COMPOUN
22、D 数据库 4) 因为我们需要查询同时满足人类 cytrate cycle 和 pyruvate carboxylase 的底物,所以需要点击 and 这个选项。 5) 最后点击 Go,即可出现图 10B 的结果。 ( A) 博奥生物有限公司 生物芯片北京国家工程研 究中心 北京市昌平区生命科学园路 18 号 邮编: 102206 电话: 86-10-80726868 传真: 86-10-80726898 网址: http:/ ( B) 图 10. Multiple Entries to Database 的使用 博奥生物有限公司 生物芯片北京国家工程研 究中心 北京市昌平区生命科学园路 18
23、 号 邮编: 102206 电话: 86-10-80726868 传真: 86-10-80726898 网址: http:/ 7. PathComp 的使用 PathComp 可以通过计算来预测联系两种化合物的可 能的反应途径。 例如我们需要人类由 Citrate 生成 Acetyl-CoA 的可能步骤。 1) 在首页上 点击进入 LIGAND 数据库 2) 在 Computational Tools 中 选择 PathComp(网页的最下方) 3) 在 Search against 这个下拉菜单中选择 Homo sapiens(Human) ,如图 11A 4) 在 Enter initia
24、l compound 里输入 Citrate 5) 在 Enter final compound 里输入输入 Acetyl-CoA 6) 点击 Exec 按钮 ,会出现图 11B 的画面 7) 再次 点击 Exec 按钮即可出现图 11C 的结果 结果中会列出可能的 pathway 中的中间产物和相应的酶的信息。点击即可查询具体资料。 ( A) 博奥生物有限公司 生物芯片北京国家工程研 究中心 北京市昌平区生命科学园路 18 号 邮编: 102206 电话: 86-10-80726868 传真: 86-10-80726898 网址: http:/ ( B) ( C) 图 11. PathCom
25、p 的使用 8. BLAST 的使用 KEGG 提供了 BLAST 工具,因此可以使用未知的序列,与 KEGG 数据库中存 在的基因或酶的序列进行比对,从而预测其可能参与的代谢途径。 例如我们想通过 BLAST 查询一条序列的信息 1) 进入 GenomeNet 的首页,在 GenomeNet Computation Service 选项下点击进入BLAST,会出现 图 12A 的画面 2) 在 Enter query sequence 选项下输入需要比对的序列 3) 在 Select program and database 选项下选择需要运行的程序。如果是 DNA 序列则选择 BLASTN
26、,如果是蛋白序列则选择 BLASTP。 可在右侧的方框中选择数据库,因为我们是要与 KEGG 数据库进行比对,因此可以使用默认选项。 4) 可以在 Output options 和 Optional parameters 两个选项中进行设置,也可以使用缺省选项。 5) 点击屏幕上方的 Compute 按钮执行 BLAST,即可出现 BLAST 结果 ,如图 12B。 在得出了结果后,可以点击前面的 entry number,直接查询结果中基因序列的信息。 关于基因信息的解释, 请参见前述 4.GENES 数据库的使用。 博奥生物有限公司 生物芯片北京国家工程研 究中心 北京市昌平区生命科学园路 18 号 邮编: 102206 电话: 86-10-80726868 传真: 86-10-80726898 网址: http:/ (A) (B) 图 12. BLAST 的使用 博奥生物有限公司 生物芯片北京国家工程研 究中心 北京市昌平区生命科学园路 18 号 邮编: 102206 电话: 86-10-80726868 传真: 86-10-80726898 网址: http:/ 三 . 后记 本教程只是介绍了 KEGG 数据库的简单使用方法, KEGG 数据库中还有更多有用的功能需要您自己去学习掌握了。