收藏 分享(赏)

KEGG数据库使用方法详解.pdf

上传人:精品资料 文档编号:10540863 上传时间:2019-11-27 格式:PDF 页数:10 大小:235.85KB
下载 相关 举报
KEGG数据库使用方法详解.pdf_第1页
第1页 / 共10页
KEGG数据库使用方法详解.pdf_第2页
第2页 / 共10页
KEGG数据库使用方法详解.pdf_第3页
第3页 / 共10页
KEGG数据库使用方法详解.pdf_第4页
第4页 / 共10页
KEGG数据库使用方法详解.pdf_第5页
第5页 / 共10页
点击查看更多>>
资源描述

1、以下内容转载自 ybzhao 的博客,特此感谢! KEGG 中的 pathway 是根据相关知识手绘的 ,这里的手绘的意思可能是指人工以特定的语言格式来确定通路各组件的联系;基因组信息主要是从 NCBI 等数据库中得到的,除了有完整的基因序列外,还有没完成的草图;另外 KEGG 中有一个“专有名词” KO( KEGG Orthology),它是蛋白质(酶)的一个分类体系,序列高度相似,并且在同一条通路上有相似功能的蛋白质被归为一组,然后打上 KO(或 K)标签。下面就首先来讲一下 KEGG orthology。 任找一个代谢通路图,在上方有 pathway meue | payhway ent

2、ry | Show(Hide) description | 这 3 个选项,点击 pathway entry, 出现了一个页面,这个随时被连接出来的页面相信大家一定再熟悉不过了。在这个页面中的 pathway map 项中点击按钮状的链接Ortholog table 。就进入了 Ortholog table 如下的页面: 在这个表中,行与物种对应, 3 个字母都是相应物中的英文单词缩写,比如 has 表示Homo sapiens, mcc 表示 Macaca mulatta;列就表示相应的 Ortholog 分类,比如 K00844 就表示生物体内的己糖激酶 hexokinase 这一类序列和

3、功能相似的蛋白质类(酶类)。如上图has 后有 3101, 3098, 3099 这 3 个条目,它表示在人类细胞中中存在 3 中不同的己糖激酶,它们分别由以上这 3 组数字代表的基因所编码,这 3 组数字应该是这 3 个基因的登录号。空白则表示在该物种中不存在这种酶。 点击 K00844 则这一 KO 分类信息及成员列表都可显示出来;点击 has 则链接到物种(人类)基因组去了;点击 P,则显示相应的代谢通路。下面我们点击 3101,如下: 如上图,就是我们常见的一个页面, 3101 是 KEGG 中的基因 ID(登录号), H.sapiens 表示物种,然后是基因的名称,表达的酶,属于哪个

4、 KO 分类以及参与哪些代谢途径;下面还有结构、序列信息等等。 所以从 Ortholog table 中可以很容易地知道一张代谢通路上有哪些 KO 分类 (酶类),并且这些酶类的成员在各物种中分配存在的情况以及特定的名称。 怎么看 KEGG 中代谢通路图 比如以上这个图,方框一般就是酶,方框里面的 5.4.2.2 不是 IP 而是 EC 编号;小圆圈代表代谢物,你把鼠标放上去,(别放我这上面,放 KEGG 中去)会出现 C00668 的东西,C 代表 compound, 00668 是这种化合物在 KEGG 中的编号,一般在 KEGG 中数据条目都是这样的,前面一个标志,后面一个五位数编号;大

5、的圆方块,就表示是另一个代谢图了,所以就不展开了。 但是:为什么这个图上有的小框框是绿色呢?(这是绿色吧?我蓝绿不分的,下同) 因为这是一张特定物种( S. cere. 酿酒酵母)的代谢图,蓝色的框框表示专属于这个物种。在 KEGG 中有两种代谢图,一种是参考代谢通路图 reference pathway,是根据已有的知识绘制的概括的、详尽的具有一般参考意义的代谢图,这种图上就不会有绿色的小框,而都是无色的,所有的框都可以点击查看更详细的信息;另一种就是像上面这样的属于特定物种的代谢图 species-specific pathway,会用绿色来 标出这个物种特有的基因或酶,只有这些绿色的框点

6、击以后才会给出更详细的信息。这两种图很好区分, reference pathway 在KEGG 中的名字是以 map 开头的,比如 map00010,就是糖酵解途径的参考图,而特定物种的代谢通路图开头三个字符不是 map 而是种属英文单词的缩写(应该就是一个属的首字母 +2 个种的首字母)比如酵母的糖酵解通路图,就是 sce00010,大肠杆菌的糖酵解通路图就应该是 eco00010 吧。 那么:怎么找这两种图呢? ( 1)有下拉列表的时候,在列表选择 reference 或者是特定 物种即可。 ( 2)在 pathway 检索的页面 http:/www.genome.jp/kegg/path

7、way.html ,如下图: 默认的就是 map,参考图,你想要什么物中的代谢图写上它的名称就好了(种属缩写),如果不知道是哪 3 个字母,点击 organism 选择即可。(不过你点进去也是一片空白,你要提示两个字母才会给出下拉条目) 顺便问一下:怎么找基因呢? 还是上面这张图,看到了吗,除了 PATHWAY 之外是不是还有 BRITE、 DISEASE以及GENES 等等,点击基因 GENES,就可以查找基因了,如下图: 不过这里要按一定的格式( org:gene)输入要查找的目的基因,比如它给出的示例:syn 表示物中, ssr3451 表示基因 ID,查找出来的基因名称是 psbE。其

8、实我试了一下,若直接检索基因名称(而不是 KEGG 中的基因 ID) syn:psbE 也是一样的。因为我不知道 KEGG中基因 ID 如何编制的,但是,我同时也 不知道基因的名称是如何定义的。比如果糖 1, 6-二磷酸酶 Fructose 1,6-biphosphatase 的基因就叫 fbp,我放进去能检索,但是我把有名的 gal填上去就不能检索,当然这可能与基因后面的乱七八糟的序号后缀有关,比如填上 gal1 就能检索了,所以我真不知道基因到底怎么命名的?当然我在 syn 中没找到 gal1 在 sce 中检索到了,这也说明了基因果然不是乱长的。 依旧是上面这个图,看到 KEGG2 了吗

9、?点击。也会出现检索框,这是一个总体性地检索框,在这里面输入关键词,代谢通路也好, glycolysis 也好, gal 也好,化合物也好,没那么多限制, KEGG 中的相关东西都会检索出来,在这里浏览一下,再进行后续检索,也是一个不错的方法。 当然,代谢通路图,还有其他的查看形式(比如以 KO 查看),以及图上可以点击,链接到这链接到那,点来点去总能点出奇怪的页面来,熟悉一下也就熟悉了,这些东西会很有用,所以我就不说了。下面讲一下 KEGG 的自动注释功能。 KEGG 的自动注释 KEGG Automatic Annotation Server, KEGG 的自动 注释服务简称 KAAS。在

10、线网址为http:/www.genome.jp/tools/kaas/ 。就是你提交一段蛋白质序列或者基因序列(必须是fasta 格式),它自动在内部进行相似性比对,找到最相似的基因,并确定检索基因的 KO分类,然后给出这些基因所在的代谢通路并以以不同的颜色标示这些基因。如下图: 我在 help 中随便复制了它的两条示例氨基酸序列,然后粘贴到检索框中,进行了检索。检索框默认的蛋白质序列,如果不是的话要改选。然后填上一个邮箱地址,点击又下角的 compute 即可。不出 意外的话,你在接下来的页面中应该看不到任何结果,甚至连提示都没有,原来它把结果发到你邮箱去了。我也不明白就一个网页链接为什么还

11、硬要发送到邮箱。 首先发你一封信说已经接受,并给你一个期待结果显示的网址,一段时间后,会发你另外一封邮件,说已经完成。打开它给的网址,就能看到结果了,如下: 看来从 1: 20 开始计算到 1: 50 才结束,两条氨基酸链计算了 30 分钟(不过我感觉没这么长呀)。人家说了,计算时间是与要和检索序列对比的目标序列成正比,因此在检索的时候最好限制一下检索范围。 点击 html 有两条代谢通量图的条目,点开他们就可以直观地看出我们检索的未知序列在代谢通路中的位置和作用了。 Text 给出的是两个 KO 分类。 好像北京大学的生命科学学院也搞了一个 KOBA,也是基于 KEGG 中的 KO 进行注释

12、的一个服务,应该和这个差不多吧。 代谢通路的着色 怎么在 KEGG 检索出来的代谢通路中给特定的一些化合物或者基因(酶)着色以高亮显示呢? 进入网页 http:/www.genome.jp/kegg/tool/color_pathway.html ,或者由 pathway 主页的 Color objects in KEGG pathways 进入,看图: 如上图, search against 下 拉出你可供选择的代谢通量图,总所周知的一个很烦人的问题就是,在这些下拉列表中,条目排序竟然是乱七八糟的很难索引。还好我发现把焦点定在这个下拉列表 的最顶端的文本框上(即文本框变成选中的蓝色),然后在

13、键盘上拼写你要的那个物中的英文单词,只需要拼两三个字符相应的代谢通量图就出现在顶端了。比如我 要找酵母的代谢通 量图,只需要在文本框变蓝的时候拼写“ sacc”这几个字符“ Saccharomyces cerevisiae(budding yeast)”就自动被置于上面了。或者不把焦点集中在文本框中也行,但是你要很快地拼写 sacc,否者的话焦点会在以这几个字符开头的条目之间切换。 如上图,右边有示例,这个貌似不要太简单。想给谁着色就把它写出来后面跟上颜色就好了,一个一行。比如写上 C00118 blue 就表示在代谢通路图中把 C00118 这种代谢物( 3-磷酸甘油醛, GAP)给着上蓝色

14、。但是大家也看出来了 ,着色可以自定义背景色,也可以同时定义前景色。我曾一度琢磨前景色是干嘛的,琢磨半天发现没用。背景色就是把方框或者圆圈涂成选定的颜色,这自然是要的;而前景色是谁的颜色,就是方框里面的5.4.2.2 这几个数字的颜色,或者是小圆圈圆周的颜色,这有必要定义吗,所以后面直接跟一种颜色就行了。 然后就可以了。我随便弄个 gal1 想去着色, KEGG 突然说在酵母中找不到 gal1,怎么可能找不到呢?我前面还在 GENES 中搜过呢,分明是酵母,分明是 gal1,分明搜的到,我当时还大为兴叹,唉,看来基因果然 不能乱长啊,怎么可能一顿饭就说找不到了呢?我又回去搜里一下,确实搜的到,

15、我再回来着色还说找不到。发现没有哪里不对呀,难道在这里 KEGG 着色只能输入基因 ID 而不能输入名称?不是,输入基因 ID 能给着色,基因名称也应该能给 哈哈,我突然大笑起来,一定是 KEGG 区分大小写了!果然,我把搜到的GAL1 输进去,好了!用 gal1 又不行了。我突然觉得好玩起来,就一次次地改大小写,一次次地看它给出的错误报告,一次次得意地嗤笑它的弱智。既然区分大小写,那 red 能着红色, Red、 RED 肯定就不认识了,果然改写一个大小写的 red 就没反应了, c00118 也不认识了。前面那么多检索一直都不区分大小写的,在这里怎么区分大小写呢? KEGG 显然把这点疏忽

16、了。 着色结果如下:(红色的就是 GAL1 的酶,右上角的就是 C00118) 代谢物还好,如果要着色酶,没必要去找基因,还免得像我那样麻烦,直接在输入框中输入相应的酶就好了,比如 ec:2.7.1.6 red(ec 要小写 ) 跟 GAL1 red 是一样的。或者直接写 2.7.1.6 red 也是一样的。 这种着色功能还可用于对比(或寻找)两个不同物种的一些基因,或者根据芯片数据,直观地示意一些基因的表达调控。着色内容也可以预先按以上规定的格式写在文本文件中,然后直接浏览导入也行。 基因芯片数据的分析 我对基因芯片数据(表达谱)的分析也是蛮感兴趣的。利用基因芯片的表达数据,分析不同实验条件

17、下的一些上调或下调基因,并与生物通路结合起来,用不同的颜 色来直观地反映代谢通路中各基因表达的变化情况,可以为更好地研究代谢网络提供了很大的帮助。以前出去听人家讲课,只知道 GenMapp 不错,可以把基因 芯片数据和通路结合起来,没想到在 KEGG 中也可以实现这一功能。 进入网页 http:/www.genome.jp/kegg/expression/ 。网页左边是 KEGG 自身拥有的一些基因表达数据集 KEGG EXPRESSION Database。网页的右边 KegArray 就是要进行芯片分析的工具了。在 KEGG EXPRESSION 下面,点击“ list of experi

18、mental data available”,就打开了KEGG 中的基因芯片数据,见下图: 这是芯片数据的一个目录层次,箭头向右和向下分别表示收起和展开数据。我们以上图中的第一条数据为例,即 Suzuki et al. 做的关于 Synechocystis PCC6803 冷激响应的一条数据 ex0000012, 点击这个数据,在打开的页面下面有个 option 列表,点击 Launch KegArray,加载这个应用程序来分析这条数据。出现如下对话框: 问你是打开还是保存,打开就相当于临时用一下,网页关掉就没了;保存就是把这个软件下载到自己的电脑上,以后 还可以用。你先打开试试吧,这个不是关

19、键,关 键的是你可能打不开这个文件。大家都知道,生物信息学的一些软件往往要求安装 JAVA 才能运行,我 JAVA 早就安装了,但是仍然告诉我打不开这个文件,我 看了一下文件格式,是什么JNLP 格式的没见过,看看属性,又从网上搜搜,说需要 java web start 才能打开和运行,我安装了 JAVA,java web start 在哪里找到和启动,查了半天也没个头绪,忽然一想, java web start 肯定在 JAVA 安装文件夹里,取首字母缩写,很有可能是 javaws.exe,我一搜还真在安装文件夹里搜到这个执行程序了,用作 JNLP 的默认打开方式,立马就呼呼地启动了。出现了

20、如下的界面: 图中的 File Name、 Organism 还都对,下面的参数一般都是默认的,不需要改。右边还有一个统计图,用以显示上调、下调和不调的基因数目比例。绿色表示下调,红色上调,黄色无明显差异(之前有文献说红色是下调,搞的我迷糊了好大一阵子!)。 那怎么在生物学通路中看这些基因的调整情况呢? 看到最下面的 Mapping to 了 吗,选择 pathway(默认的也是 pathway),GO 一下,就 OK了。然后它就会把这个芯片数据涉及到的基因所在的通路图列出来,并在通路中用不 同的颜色标明基因表达差异。如下图(选取的是嘌呤代谢通路的一部分) 绿色表示基因下调,黄色表示没明显变化

21、,灰色是什么,这个可能 species-specific 基因,与芯片无关的吧。那怎么没红色? ( 1)通路中本就没有基因上调 ( 2)虽然绿色表示下调,红色上调,但是在他们之间有过渡的颜色,比如某个基因只是稍微上调,因此不能大红大紫,只能呈现过渡的暗黄色。如果你一定 有见红情结的话,那你可以在 help 菜单中选择 preferences,把颜色梯度改成 1,即下调就是绿色,上调就是红色,没中间余地。此时一旦有所上调不论多少都是大红。(呵呵) 除此之外,看到了吗, KegArray 还有一个做聚类 Clustering 的命令,你可以点击GenomeNet 从 KEGG 中选择芯片数据进行聚

22、类,不过貌似做得很简单,也没有红绿颜 色。 当然,你可以选择 KEGG 其他芯片数据进行类似分析,可可以从本地导入其他的芯片数据。也可以把 KegArray 保存在本地运行,但是不管怎样,不管你选 在 KEGG 中选了那条数据,需要指出的一点是,当你再运行 KegArray 时,加载的数据总是你第一次使用的数据。比如我即使在 KEGG 中选择 ex000013 而不是 ex000012,然后 launch KegArray, 启动后出现的数据依旧是我第一次分析的数据 ex000012 而不是 ex000013, 只有打开以后,点击GenemoNet 重新选择芯片数据。而 KegArray 本身

23、又找不到可以设置这些东西的地方,真不知道 KEGG 想要干嘛! KGML 与通路编辑 这个我不打算多讲,因为我自己也在踌躇着要不要学习呢。 KGML,即 KEGG Markup Language 的简称,我自己的理解就是它包含代谢通路中各组件以及各组件之间的相互联系,因此是代谢通路构建的指令。在 KEGG 中可以以 xml 的格式进行下载: ftp:/ftp.genome.jp/pub/kegg/xml/ 。 据说这种 KGML 文件,打开时,能以另一种方式查看代谢通路,即酶和化合物之间的各种交叉联系,我很想看,但郁闷的是,我 xml 也下了,一个叫什么 KGML DTD 的也下了(见 htt

24、p:/www.genome.jp/kegg/xml/),但是打开后没反应啥图也没有。可能需要一些专门的软件才能打开吧,比如 VisANT, GenMAPP, PathwayExpert 等。 另一方面就是越来越多的软件开始支持并应用到 KGML 了,但是我感兴趣的是有些软件已经能够基于 KGML 进行 KEGG 代谢通路的编辑了。单是一个图的话,用 PS 修饰或许也能搞定,但是如果是大规模地建模或修改代谢通路,显然需要这些软件。 有个软件 KGML-ED( http:/kgml-ed.ipk-gatersleben.de/Introduction.html),安装竟然需要 1.6 的 java

25、 版本,我用 1.5 的试了试,还真不行 其他的软件有的能把 KGML 转换成 SBML(如 KGMLConverter),貌似 SBML 也是生物学软件中主流的东西,能建模 能可视化。不知道有没有人知道呢? 最后做个总结吧, KEGG 也是一个很全面的数据库,不仅是代谢通路,基因信息,化合物反应等数据也是很不错的, 但是难免又有一些疏忽之处,比如,着色输入框区分大小写,KegArray 启动时数据不对等,总的来讲还是很 cool 的数据库。有越来越多的科研者基于 KEGG 开发了一些实用的工具,比如基于 KEGG KO 的注释工具 KAAS, KOBA 等,基于 KEGG KGML 的通路建模工具 KGML-ED, KGMLconverter 等,相信大家对 KEGG 的利用会越来越充分的。另外, KEGG 也 在不断的发展和更新中,本文中的一些页面都有可能改动和变化, 希望后来交流者,有所知晓,也希望大家一起分享经验 原文链接: http:/

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报