1、摘要摘要量化基因本体中条目对的语义相似性可以帮助人们探索生物实体在功能方面的关系。目前,一种通用的解决方法是基于条目公共祖先所包含的生物信息来衡量条目间共享的信息。然而,对于条目共享信息的测量,很多研究都有各自的缺陷和限制。本文提出了一种新的测量方法基于条目共享信息的本体条目语义相似性度量,该方法是基于一个在基因本体中多重继承关系的直观发现上提出的。该方法是从基于继承的公共祖先所包涵的生物信息上发展出来;基于继承的公共祖先节点是根据条目公共祖先的孩子节点的属性而从公共祖先集合中筛选出来的。测试结果显示,该方法计算的结果更贴近生物专家们的分析,而且该方法也有效支撑了人们对“酵母菌通路数据集中基因
2、功能分类”这一认识。另外,对于大规模数据集的实际应用,该方法是一个很有前途的基于多重继承的替代方法。关键词:语义相似性测量 基因本体 信息量 公共祖先 基于继承的公共祖先摘要ABSTRACTABSTRACTQuantifying the semantic similarities between pairs of terms in the Gene Ontology structure can help to explore the functional relationships between biological entities. A common approach to this p
3、roblem is to measure the information they have in common based on the information content of their common ancestors. However, many studies have their limitations in measuring the information two Gene Ontology terms share. This study presented a new measurement, exclusively inherited shared informati
4、on that captured the information shared by two terms based on an intuitive observation on the multiple inheritance relationships among the terms in the Gene Ontology graph. Exclusively inherited shared information was derived from the information content of the exclusively inherited common ancestors
5、, which were screened from the common ancestors according to the attribute of their direct children. As the test results show, it produced more relevant result with experts scores on the artificial dataset, and supported the prior knowledge of gene function in pathways on the Saccharomyces genome da
6、tabase. It is a promising alternative to multiple inheritance based methods for practical applications on large-scale dataset. Key words: Semantic similarity measurement Gene Ontology Information content Common ancestors Exclusively inherited common ancestorsABSTRACT目录 目录第一章 绪论 .11.1 引言 11.2 研究现状 11
7、.3 研究内容和目标 31.4 论文章节安排 3第二章 GO 与相似性度量 52.1 GO 概述 52.2 GO 条目的相似性度量 52.2.1 基于边的相似性度量方法 .62.2.2 基于节点的相似性度量方法 .62.3 基因相似性度量 82.3.1 成对比较 .82.3.2 成组比较 .92.4 本章小结 9第三章 EISI 方法及其应用 113.1 EISI 方法 .113.2 语义相似性计算 133.2.1 条目相似性计算 .133.2.2 算法示例 .143.3 MICA、DCA 与 EICA 的对比分析 163.3.1 EICA 和 MICA 163.3.2 EICA 与 DCA
8、163.4 本章小结 18第四章 实现与评估 .19 目录4.1 EISI 方法的实现 .194.2 实验环境和相关数据包 204.2.1 R 语言简介以及优缺点分析 204.2.2 GO.db 包 214.3 测试数据处理与测试原理 224.3.1 在人工评分数据集上测试 .224.3.2 在通路数据集上测试 .234.4 实验结果及分析 264.4.1 人工评分数据集 264.4.2 通路数据集 .274.5 本章小结 29第五章 结论与展望 .315.1. 结论 .315.2 本文的不足之处和下一步的工作 315.3 本章小结 32致谢 .33参考文献 .35第一章 绪论 1第一章 绪论
9、1.1 引言在生物信息学中,生物实体间的比较对于生物研究来说非常重要。因为它可以帮助人们研究基因产物或基因(为了方便,下文统称为基因)之间的功能关系,并以此来推测基因的功能和生物学作用。比较传统的解决方案是基于比较进行实验的,但这既耗费时间又耗费资源。当然还有一些方案是应用生物信息学的方法来比较基因序列或结构 1。随着高通量技术的出现,造就了大量的各式各样的对基因功能进行注释的生物数据,这为我们提供了一种前途比较光明的在功能方面来比较基因的方式。除去从功能角度比较基因之外,从其它方面出发进行比较可能是不太理想的。因为即使结构相似的两个基因在功能方面也未必有很高的相似性,反之亦然。然而,基于大量
10、且多样化的生物数据来比较基因确实是一个富有挑战的任务,因为通常它们的结构都是比较松散的。为此,我们引入了各种各样的生物本体,基因本体(Gene Ontology,GO)就是其中之一,它提供了从不同数据资源关于基因功能方面比较统一的描述。这可以被用来探索生物实体之间功能联系以及在生物研究方面更多样化的应用,比如基因功能预测 3,4,基因表达数据分析 5,6,基因聚类分析 7,8,致病基因排序 9,10和蛋白质相互作用的分析 11,12等。由于基于比较实验来验证基因的功能以及基因之间的关系是一个非常耗时且代价高昂的过程,因此通过 GO 注释来预测基因功能就成为了生物信息学研究理想的替代方式。当然为
11、了更准确的探究基因本身,生物学家们也必须努力去探索如何更准确地表达 GO 条目以及基因的语义。1.2 研究现状在近几年,关于语义相似性方面的研究吸引了越来越多的生物组织关注,各种各样的方法被提出,而且一些软件包也被用于计算 GO 条目的语义相似性,其中包括 Fussimeg13、FunSimMat 14、G-SESAME 15、GFSAT 16、GOSemSim 172 基于条目共享信息的本体条目语义相似性度量和 SORA18等。这些被用来测量 GO 条目的语义相似性的方法本质上可以被分为两大类:基于边(也可以说是基于结构),该方法是基于概念上的距离被提出的,所谓“概念距离”是源于 GO 图中
12、与边的长度或类型等相关的信息;基于节点(也就是基于注释或基于信息量),在该方法中采用节点和它们的属性来计算信息量并以此来计算条目语义相似性。当然,也有些方法将上述两类方法结合来使用,也就是结合信息量和 GO 结构来计算语义相似性。基于节点的测量语义相似性的方法可能是在文献中最频繁被提及的方法了。该方法是建立在信息论上的,其原理是:两个对象共享的信息越多,相似性越高。对象包含的信息可以通过信息量(Information Content,IC)来量化,信息量是依据某个条目在 GO 结构或某个注释集合中出现的概率来计算的。信息量可以作为评估条目所拥有的信息和其具体程度的一个指示器。另外,它被定义为条
13、目 t 出现概率的负对数。Resnik 19提出了一种基于最大信息量公共祖先(Most Informative Common Ancestor,MICA 20)的衡量相似性的方法,它计算出所有公共祖先的信息量并选出其中的最大值作为条目的相似性度量。因为 Resnik 方法计算的相似性值可能大于 1,Lin 21、Jiang&Conrath 22提出了他们的改进策略,他们通过归一化使相似性值映射在 01 范围内。尽管如此,这两种计算相似性的方法还是基于 Resnik 方法的,因为它们只考虑了单一的祖先的信息量,即 MICA,它被两条目都继承了。当 GO 是树结构时,该理论是成立的;但是当 GO
14、为有向无环图(Directed Acyclic Graph,DAG)时,这些方法有问题的。因为一个节点可能有多个父节点,所以某些继承自多个祖先的生物信息将被遗漏。为了解决由多重继承引起的问题,Couto 等人 23提出了分离式公共祖先(Disjunctive Common Ancestors,DCA 23)的概念并定义了一种基于图的相似性测量方法 GraSM24(Graph-Based Similarity Measure)。在该方法中,两个条目共享的信息是源自它们的所有 DCA 并通过取它们信息量的平均值作为共享信息的衡量。随后他们改进了该方法并作为一种新的方法 DiShIn20(dubbe
15、d Disjunctive Shared Information)来解决由于递归定义 DCAs 和并行解释所引起的计算复杂度的问题。无论是 GraSM 还是 DiShIn 都可以直接和那些基于 MICA 的相似性计算方法结合起来。然而,动态执行 GraSM 和 DiShIn 是非常耗时的,因为它们需要第一章 绪论 3在 GO 结构中查询两节点间的路径。为了绕过这个问题,他们预先查询并将结果存储在数据集里,以备后面计算所需。1.3 研究内容和目标为了有效地解决多重继承的问题,本文提出了一种基于继承式公共祖先(Exclusively Inherited Common Ancestors,EICA)
16、的新理论来度量两个 GO 条目共享的信息。在此的基础上,作者提出了本体条目语义相似性度量方法-EISI( Exclusively Inherited Shared Information)。当然,该方法也是基于条目共享信息的。类似于 GraSM 和 DiShIn,EISI 也考虑了两条目所共享的多重公共祖先,而且定义了它们公共祖先即 EICA 的信息量的平均值作为条目间共享的信息量。然而,EISI 方法只考虑了那些其孩子节点被条目对之一完全继承的那些祖先节点,即并非所有的祖先节点都被考虑在内,这意味着可以降低计算共享信息的复杂度。该方法实际上是基于条目队的部分公共祖先来量化共享的信息。EISI
17、 方法的提出是基于对 GO 多重继承的一个直观发现:只有那些被完全继承的公共祖先才能决定条目对共享的信息。我们首先构造条目的公共祖先的集合,该集合中的每一个元素代表被条目对同时继承的一个节点。然后,检查所有的公共祖先,那些其孩子被条目对之一所完全继承的节点被当作 EICA。最后取所有 EICA 的信息量的平均值作为两条目共享信息的度量。通过在人工评分数据和酵母菌数据集上做验证,结果表明利用 EISI 所计算的相似性在人工评分数据集上与专家的结果更为一致,而且其结果也有力支撑了当前人们在酵母菌通路数据集上的认识。EISI 方法有两点优势:首先,通过考虑多重继承,该方法能更有效的定义两个 GO 条
18、目之间的关系;其次,计算所有的 EICA 的时间复杂度只有 ,算法效率较基于()DCA 的方法更高。1.4 论文章节安排本文主要分为 5 个章节,如下简单介绍了一下每一章节的内容:第一章作为引言部分,分别从当前的研究背景,国内外研究现状以及本文的4 基于条目共享信息的本体条目语义相似性度量主要工作内容等几个方面对本文作一个大致的介绍。第二章介绍了本文需要用到的理论基础,包括 GO 概述、基因注释,并对当前流行的关于条目相似性和基因相似性计算方法进行分类叙述,其中涉及到了几种经典的算法。本章主要是为了使读者对整个研究领域有个初步的了解,以便于后续工作的理解。第三章详细介绍 EISI 方法,包括它
19、的理论基础以及在条目相似性和基因相似性方面的具体应用。另外,还对当今几大主流的方法和 EISI 方法进行理论上的区分和优缺点分析。 第四章对 EISI 方法进行实现以及对该方法进行测试评估。首先对 EISI 方法分步论述并代码实现;其次介绍了相关的软件环境,包括 R 语言介绍与分析以及介绍了算法实现过程中需要用到的包;最后通过在人工评分数据集和酵母菌通路数据集进行测试验证了 EISI 方法的合理性和高效性。第五章对全文进行总结性的概括,其中包括对 EISI 方法的总结;其后又提出了本文的不足之处以及相应的处理措施,以备感兴趣的读者进行下一步工作。第二章 GO 与相似性度量 5第二章 GO 与相
20、似性度量2.1 GO 概述GO 是基因本体联合会(Gene Ontology Consortium)所建立的数据库,旨在建立一个适用于各种物种的,对基因和蛋白质功能进行限定和描述并能随着研究不断深入而更新的语义词汇标准。GO 事实上由两部分组成,包括 GO 结构和 GO注释。前者是由多个受控词汇或称之为条目所组成的,每个条目都有自己唯一的标识符,它们涉及到了三个彼此独立的生物信息领域,并因此组成三个子本体,分别是分子功能(Molecular Function,MF)、生物过程(Biological Process,BP)、细胞组件(Cellular Component, CC)。另外,整个 G
21、O 被组织成一个 DAG,其中条目间的关系分为“is-a”、“part-of ”和“regulates”。MF 本体内的条目主要描述基因产物在分子级别的主要活动,比如结合和催化活动;BP 本体内的条目主要用于描述由一个或多个分子功能有序组合而产生的系列事件;CC 本体内的条目主要用来描述与基因在细胞中的位置以及其内外环境密切相关的过程和活动。GO 的另一组成部分就是注释,其将基因条目和基因本身进行了链接,它提供了一个基因或基因产物的相关信息,而这些信息则体现在 GO 结构中的若干条目集合。当一个基因被一个 GO 条目注释时,则该基因也被注释在这个条目的所有祖先上。另外,如果某两个基因被相同条目
22、或该条目的祖先条目或子孙条目所注释,那么我们可以认为这两个基因是彼此相关的。基于 GO 的该特性,我们可以通过测量注释基因的 GO 条目的语义相似性来比较基因在功能方面的相似性。2.2 GO 条目的相似性度量近几年,条目的语义相似性度量吸引了越来越多的生物信息组织关注,各种各样的方法和工具被推出,包括 Fussimeg13、FunSimMat 14、G-SESAME 15、GFSAT16、GOSemSim 17和 SORA18等。但究其本质,这些方法可以归类为两种:6 基于条目共享信息的本体条目语义相似性度量基于边(Edge-based)和基于节点(Node-based )。前者以本体中边的长
23、度、类型等作为数据源来计算语义相似性;后者则主要关注本体中的节点和其属性。2.2.1 基于边的相似性度量方法本质上,该方法主要是基于计算连接两个条目的路径中边的数量。其中最常用的技术则是条目间的概念距离,当条目间存在多条路径时,可以选择最短路径的距离或者所有路径的平均距离。该概念距离可以很容易地转化为对语义相似性的度量。另外,公共路径技术则是直接通过计算两条目的最低公共祖先到根节点的路径距离来量化条目间的相似性。然而,这种方法却仅仅是直观上的,因为它是建立在生物本体论中两个不可靠的假设之上:(1)节点和边是均匀分布在本体中的;(2)处于同一层次的边具有相同的语义距离。为了解决这些问题,人们提出
24、了权重边的概念,它根据节点的深度,密度以及边的类型赋予边不同的权值。然而,具有相同深度的条目不一定有相同的具体性以及处于同一层的边也并不代表一样的语义距离,因此由两大假设引起的问题并没有被解决。2.2.2 基于节点的相似性度量方法基于节点的方法则主要是比较被研究条目的属性,包括条目本身、条目的祖先节点以及子孙节点。该方法中最常用的技术则是信息量,它量化了一个条目所包含信息的多少以及具体程度,其定义如式(2-1):式(2-1)()=()其中, 代表条目 在特定全集中出现的概率,一般指在某一注释集合中出现的() 频率。另外,IC 值也可以通过条目所拥有的孩子节点个数来计算,但该方法几乎很少使用。实
25、际上,在计算 IC 时,可以分为两种方法:基于本体结构和基于注释数据库。在基于注释数据库的方法中,由于受到研究热门程度的影响以及注释数据库的频繁变化,其中热门的条目被标注的较多,这会导致条目 IC 的不均匀性,即使两个条目处于相同层次,其 IC 值可能相差甚远。而在基于本体结构的方法中,IC值只与本体结构有关,它只考虑条目自身的特性,如有多少后代条目,因此可得第二章 GO 与相似性度量 7计算 IC 值变体公式(2-2):式(2-2)()=1()+1)(_)其中 表示条目 的所有子孙节点数; 表示本体中全部条目个数。() _对于同一条目,该方法即使在不同的注释数据集中也可以取得相同的 IC 值
26、,这更能反应出条目自身在本体中的特性。另外它将 IC 的范围限制在 01 范围内,这对后续计算语义相似性的好处不言而喻。但该方法也有自己的缺陷,如对于有相同个数的子孙节点的两个条目而言,它们的 IC 是相同的;而且它对于所有叶子节点而言,IC 值均为 1,这显然是与事实相悖。在所有使用 IC 的基于节点的方法中,Resnik,Lin 以及 Jiang&Conrath 方法最为广泛使用。它们最初是应用在 WordNet 中,之后被移植在 GO 中用于计算条目语义相似性。Resnik 方法简单地考虑在所有公共祖先节点中最大信息量的公共祖先的信息量作为条目间的共享信息,并以此来说明两个条目之间的语义
27、相似性,如公式(2-3 )所示。式(2-3)(1,2)=(1,2)=()|(1,2)虽然 Resnik 方法有一定的效果,但该方法并没有考虑两条目到公共祖先节点的距离对相似性的影响,为了解决这一点,Lin 以及 Jiang&Conrath 各自解决方法。前者提出了一种归一化的版本,其将条目相似性定义为两条目共享信息与自身信息量的比值,如式(2-4)所示:式(2-4)(1,2)=2(1,2)(1)+(2)后者在计算条目间的概念距离时不仅考虑了 IC,还将其它因素,如条目深度,密度以及连接类型考虑进去,但因其过于复杂,人们通常使用只考虑 IC 的简化版本:式(2-5)(1,2)= (1)+(2)2
28、(1,2)值得注意的是,这只是语义距离,而非语义相似性。我们可以通过式(2-6)将语义距离转化为语义相似性。式(2-6)(1,2)=11+(1,2)8 基于条目共享信息的本体条目语义相似性度量2.3 基因相似性度量基因和其产物如蛋白质等可以被 GO 条目注释,包括 MF、BP、CC 三类。其中,基因或其产物的功能性主要由 MF 条目描述,并参与到多个 BP 以及处于不同的 CC 中。因此,为了比较基因之间的相似性,我们需要注释条目集合,而非单个条目对。目前已经提出了多种方法,可主要分为两大类:成对比较(Pairwise) 和成组计较( Groupwise)。2.3.1 成对比较成对比较方法通过
29、结合条目语义相似性方法来计算基因相似性。每个基因都有各自相应的条目集合,因此可以通过上述的条目相似性方法来计算两个基因对应的条目集合的相似性。假设有基因 和 ,分别被 、 个 GO 条目注释,因此1 2 n我们可以得到 对条目的相似性。对这 对条目的相似性采用不同的结合 策略就可以的到两个基因的相似性。有些方法会考虑所有的条目对,而另一些则只考虑最佳匹配的条目对。常用的结合策略包括求所有条目对相似性的平均值、最大值、总和以及最佳匹配条目对。其中,最大策略可以表明是否两个基因在功能方面有共性,而作为全局考虑相似性的话,该策略并不适合。因为该策略并不关心基因在功能方面的共享数量和不同数量。例如,有
30、基因 A 和 B,分别被条目 、 和 、 注释,因为两基因1 2 1 3都被条目 注释,如果利用最大策略,则认为这两个基因是 100%相似的。显然,1这并不能反应基因之间的相似性。至于平均策略,它不加选择的将所有条目对都纳入考虑范围,这会降低基因之间的相似性。例如,基因 A、B,它们都被相同的条目所注释,如果利用平均策略,则认为它们之间的相似度为 50%,这显然有悖于事实。最大平均策略则是对最大策略和平均策略的一种平衡,它只考虑每个条目与其最匹配的条目对,之后再对选取出的 对条目求平均值,结果作为基因对(+)的相似性度量。该策略更能准确反映基因对的相似性。第二章 GO 与相似性度量 92.3.
31、2 成组比较该方法并不依赖于条目对的相似性,而是将条目集合作为一个整体考虑,通常在形式上区分为三类:集合、图、向量。在基于集合的方法中,只考虑那些直接注释;另外,通过集合相似性技术来计算基因间的相似性。在基于图的方法中,基因被当作与其相关的注释构成的子图,之后,可以使用图形匹配算法。但是该算法存在较大的计算复杂度,所以一般将基因构成的子图当作条目集合考虑,并利用集合相似性技术来计算相似性。基于向量的方法将基因映射到一个向量空间中,其中每个注释条目与一个维度相关。在向量空间中,每个向量都是二值向量,1 表示该条目存在于基因的注释集合中,0 表示与此相反。映射结束后,利用向量相似性技术计算基因相似
32、性,一般通过计算基因 A、B 对应向量的余弦相似性来度量基因之间的相似性,如式(2-7)所示。式(2-7)(,)=|2+|22.4 本章小结本章的内容可以分为两部分。第一部分主要介绍了生物信息领域被广泛使用的本体 GO,包括其组成结构以及各部分的生物学意义;第二部分则主要介绍了当前广泛流行的关于语义相似性计算的各种理论和方法以及它们在基因方面的应用。10 基于条目共享信息的本体条目语义相似性度量第三章 EISI 理论及其应用 11第三章 EISI 方法及其应用3.1 EISI 方法在基于 DAG 的 GO 中,GO 条目代表了与作为基因产物信息的分子功能,生物进程和细胞结构相关的生物受控词汇表
33、;图中的边连接了不同的条目,它代表着条目间特定的关系,如“part-of”、“is-a”、“regulates”等。在 GO 中,所有条目都是以层级继承的方式组织的,如果某条目节点越接近根节点,则其包含的生物信息越少越大众化;与此相反,如果某条目节点越远离根节点,则说明其包含的信息越多越具体化。在 GO 的某条路径中,条目之间是存在继承关系的,换句话说就是当条目处在越浅的位置,那么他继承自其祖先的生物信息就越大众化。所以,从祖先节点到子孙节点,节点包含的生物信息会越来越详细,条目的语义也同样如此。由于 GO 中条目语义的继承特性,所以生物信息会从父节点到孩子节点,逐级传递。所以在一条给定的由祖
34、先条目到后代条目的路径中,某个条目的祖先所包含的信息对于该条目的孩子来说是多余的,因为该条目会将它从祖先条目得到的所有信息都传递给它的孩子条目。基于这个发现,人们可能理所当然地认为:对于被研究的两个条目的某个的公共祖先条目而言,它的所有祖先节点包含的信息对于被研究的两条目来说是多余的。虽然这个观点在单继承的情况是成立的,然而在存在多重继承的情况下却并不适用。因为这里可能存在一条从某祖先节点到被研究条目之一的路径,而从该祖先节点却没有到另一个被研究条目的路径,这意味着该祖先节点包含的信息没有被另一个条目所继承。换句话说,一个公共祖先可能将一些信息只传递给了其中的一个子孙节点,但是当我们删除这个公
35、共祖先节点时,该信息也就消失了,即使其它共享信息保持不变。所以,当前那些考虑所有祖先节点或者只考虑包含信息量最大的祖先节点的方法都有各自的缺陷。为了解决这个问题,我们提出 EISI 方法。如果存在子孙节点 A 和子孙节点 B 的公共祖先节点 C 被它的孩子节点直接12 基于条目共享信息的本体条目语义相似性度量继承,而该孩子节点又被子孙节点 A 或 B 中的某个节点给继承,则将公共祖先节点 C 定义为 EICA。根据该定义,一个 EICA 节点可以通过一条独有的连接该节点到两个子孙节点之一的路径将信息指定传递给 A 或 B。所以,EICAs 包含的所有信息都会传递给条目 A 和条目 B,其中的某
36、些信息为两者所共有,而剩余的信息则是两者所独有,因此可以用这些来计算 GO 条目间的相似性。图 3.1 示例继承关系以及 EICAs为了更形象更具体的阐述 EICA 定义,图 3.1 用三个不同的例子来说明继承关系以及如何寻找两个条目的 EICAs。图中箭头代表继承关系;圆圈代表节点;灰色背景圆圈代表公共祖先;灰色背景虚线圆圈代表 EICA。图 3.1(a)简单示例了一个单继承的情景。在该情景中,节点 就是节点 和 的一个 EICA,因为该3 4 5节点的两个直接孩子节点并没有包含在节点 和 的公共祖先集合 中。4 5 1,2,3另外,节点 被节点 继承,而节点 又被节点 继承,换句话说节点
37、就是最1 2 2 3 3大信息量的节点,它所包含的信息已足够具体来说明节点 和节点 的关系。如4 5果 GO 是树形结构,则这个示例完全可以说明一切,然而 GO 并不是树形结构;图 3.1(b)说明了多重继承的问题,其中节点 是节点 和节点 的唯一 EICA。在4 5 6该示例中,集合 是节点 和节点 的公共祖先节点。节点 包含的信1,2,3,4 5 6 1息都被节点 所继承,而 的信息又被节点 和节点 所共享,最后又都集中在2 2 3 4节点 中,被节点 和节点 所继承。因此可以说公共祖先的所有信息被集中在4 5 6节点 上以及被节点 和节点 共享,这意味着如果一个公共祖先节点的所有孩4 5
38、 6子节点都包含在公共祖先集合中,那么所有被共享的信息就可以通过最大信息量的节点来描述;图 3.1(c)描述了有多个 EICA 的多重继承的示例。在该场景中,第三章 EISI 理论及其应用 13节点 从节点 中继承了语义,而该语义又被节点 和节点 共享。显而易见,2 1 3 4由于节点 通过不同的路径被节点 和节点 给继承,所以节点 就是一个3 5 6 3EICA 节点。另外,节点 是节点 的一个孩子节点,而且并没有被包含在公共4 2祖先集合 中,所以说节点 也是一个 EICA 节点。1,2,3 4在 GO 中,给定条目 和 ,我们可以找出它们的公共祖先集合 ,1 2 (1,2)并按式(3-1
39、 )定义它们的 EICA 集合:(1,2) =: (1,2): ()(1,2)(1)(2)式(3-1)其中, 表示节点 的孩子节点集合; 和 分别表示节点 和节点() (1) (2) 1的祖先节点集合,其中包括节点 和节点 自身。通过该方法找到 EICAs,则2 1 2EICAs 所包含的信息可以作为节点 和节点 共享的信息量,即 EISI。该值可以1 2通过取所有 EICA 包含的信息量的平均值来量化,如式(3-2)所示:式(3-2)(1,2)=1(1,2)()其中 N 代表集合 中的元素个数。(1,2)3.2 语义相似性计算3.2.1 条目相似性计算纵观基于共享信息的语义相似性计算方法,无
40、外乎寻找被研究条目对的共享信息。无论是 MICA 方法,还是本文提出的 EISI 方法都是以被研究对象的公共祖先的信息量作为参考来计算条目的语义相似性,唯一不同的是不同的方法在选取最终参考的公共祖先的原则不同。而最终在找出被研究条目的公共祖先作为共享信息后对其进行处理来计算语义相似性的方法是一样的,无非是Resnik、Lin、Jiang&Conrath 等方法,其中又以上述三者最为广为使用。依靠式(3-2 )计算出 EISI 方法相应的共享信息,将其代入上述方法中即可获得各自对应的相似性值,结果式(3-3) 、式(3-4) 、式(3-5)所示。14 基于条目共享信息的本体条目语义相似性度量式(
41、3-3):(1,2)=(1,2)式(3-4):(1,2)=2(1,2)(1)+(2)式(3-5):(1,2)=11+(1)+(2)2(1,2)3.2.2 算法示例为了解释在存在多重继承的情况下 EISI 方法是如何识别两个的条目的 EICAs以及基于此来计算条目间的相似性,作者从 GO 中截取出部分片段进行示例,如图 3.2 所示。图 3.2 作为 GO 的子图,其包括 8 个 GO 条目以及它们之间的继承关系。图中,箭头表示继承关系;灰色实线椭圆形表示条目的公共祖先;灰色虚线椭圆表示条目的 EICAs。集合 是条目 、 的公共祖先(6,7)=0,1,2,3 6 7集合。对于该集合中的元素而言
42、, 和 是多余的,因为它们所包含的信息分别0 1被它们的孩子条目 、 给继承了。与此相反, 和 却并不是多余的,因为在1 2 2 3它们各自的孩子集合 和 中存在某一元素( 之于 , 、 之3,4 6,7 4 3,4 6 7于 ),而该元素并没有都被 、 继承。所以 、 就是 和 的6,7 6 7 2 3 6 7EICA,即 。(6,7)=2,3表 3.1 图 3.2 中各条目的 IC 值GO term Frequency ICn0: biological process 28007 0n1: establishment of localization 3007 0.2179166n2: pr
43、otein localization 745 0.3541749n3: cellular protein localization 483 0.3964951n4: establishment of protein localization 451 0.4031892n5: protein transport 404 0.4139363n6: intracellular protein transport 181 0.4923447n7: protein localization to paranode region of axon 1 1表 3.1 列出了图 3.2 中每个条目在 GO 中出
44、现的频率以及相关的 IC。如果利第三章 EISI 理论及其应用 15用 MICA 方法,则条目 、 共享的信息量是6 7;如果使用 EISI 方法,则条目 、 共享(6,7)=(3)=0.3964951 6 7的信息量是 。将此共享信息量分别代入(6,7)=(2)+(3)2 =0.375335Resnik、Lin、Jiang&Conrath 方法中就可得到相应的相似性值,如下所示。:(6,7)=(6,7)=0.3964951:(6,7)=2(6,7)(6)+(7) =0.531372:(6,7)= 11+(6)+(7)2(6,7)=0.5884586:(6,7)=(6,7)=0.375335:
45、(6,7)=2(6,7)(6)+(7) =0.5030138:(6,7)= 11+(6)+(7)2(6,7)=0.5741599图 3.2 GO 片段正如图 3.2 所示,protein localization 条目和 cellular protein localization 条目是 protein localization to paranode region of axon 条目和 intracellular protein 16 基于条目共享信息的本体条目语义相似性度量transport 条目的 EICA。Intracellular protein transport 条目通过两条路径融合了继承自 protein localization 条目的信息。其中一条与 cellular pr