基因本体的基因功能相似性度量.docx-道客多多

资源描述

1、Error! No text of specified style in document.摘要基因本体通过条目注释为不同物种间的基因产物提供统一的功能描述，为研究基因的功能提供了有效的途径，目前已经有很多基于基因本体衡量基因相似性的算法，但均存在条目间的共享语义被重复计算的缺陷。本文以两个基因注释集合的交集的信息量作为该对基因的共享语义，并结合继承语义和拓展语义的概念，在此基础上提出一种新的衡量基因功能相似性的算法注释的语义重叠比（Semantic Overlap Ratio of Annotation，SORA ）。此外，考虑到基因本体中存在多重继承，本文对原始 SORA 算法做出修改，在

2、计算继承信息量时乘以由被拓展集合中的条目数量和拓展条目的祖先数量确定的比例因子。最后，本文以致病基因作为测试数据，对原始及修改后的 SORA 算法进行了验证，实验结果说明本文实现的算法能有效刻画基因的相似性。关键词：基因本体语义相似性注释的语义重叠比Error! No text of specified style in document.ABSTRACTGene ontology can provide a common schema for describing gene function among genes in different species, which means th

3、at there would be an effective approach to compare the functional aspects of genes. Up till now, many algorithms based on gene ontology for measuring gene semantic similarity have been proposed, most of which have the defect that the shared semantics of terms are added repeatedly.In this paper, the

4、information content of the intersection of the annotation sets of two genes to be compared is considered as the shared semantics of this pair of genes. In light of this, a novel gene similarity measurement, Semantic Overlap Ratio of Annotation(SORA), is proposed, combined with the inherited and exte

5、nded semantics. In addition, considering the multiple inheritance present in gene ontology, some modifications that the extended information content is multiplied by an index determined by the number of terms in the extended term sets and that of the ancestor terms of the extending term are made to

6、the original SORA.Finally, both original and modified SORA are evaluated using some genes related to disease as the test data and the experimental results show that the algorithms implemented in this paper are reliable to characterize gene functional similarity.Keywords: Gene Ontology Semantic Simil

7、arity Semantic Overlap Ratio of AnnotationError! No text of specified style in document. i目录第一章绪论 .11.1 引言 11.2 研究现状 11.3 研究内容和目标 21.4 论文章节安排 3第二章 GO 与基因相似性度量 52.1 GO 概述 52.2 基因的相似性度量 52.2.1 成对比较 .62.2.2 成组比较 .7第三章注释的语义重叠比算法 .93.1 条目信息量的计算 93.2 继承信息量和扩展信息量 103.3 计算集合的信息量 113.3.1 算法描述 .113.3.2 算法示例

8、 .133.4 基因的功能相似性度量 163.5 算法改进 17第四章实现与评估 .194.1 实验环境及所用到的包 194.1.1 R 语言简介 194.1.2 存储 GO 条目信息的包 .194.1.3 存储各物种基因信息的包 .204.2 SORA 算法实现 21ii 目录4.3 实验验证 244.3.1 数据准备 .244.3.2 实验结果分析 .25第五章结论与展望 .29致谢 .31参考文献 .33第一章绪论 1第一章绪论1.1 引言在生物信息学中，比较基因及基因产物的相似性在多种应用上都起着关键的作用，如蛋白质交互作用的分析 1、致病基因预测 2、基因聚类 3等，最直接的

9、方法是基于基因序列进行比较，然而这种方法只考虑到基因的内部结构，忽略了基因在生物过程中表现出的功能。而生物学家们在实验中发现，结构相似的基因并不一定在功能方面也具有很高的相似性，反之亦然 4。这种现象虽然并非俯拾即是，不能因此否认基因结构作为一种相似性衡量方法的可靠性，而是应该在结构的基础上，辅助以功能相似性的比较。比如当研究与细胞增殖活动相关的基因时，除了分析哪些基因与少数从实验中已经得到验证的基因的结构相似外，或许还可以考虑那些参与了类似细胞增殖活动（如细胞分裂）的基因，后一种方法显然与基因的结构无关。基因的功能不像基因序列或结构，有客观的表示形式和可以测量的属性，且随着生物数据的海量增加

10、，更需要有一种统一的模式来描述基因的功能，以便进行比较和数据的共享，基因本体（Gene Ontology，GO）应运而生。通过 GO 中条目对基因的注释，将基因转化为一些 GO 条目的集合，通过条目间的语义关系，可以推断出基因的功能相似性。由于通过实验验证基因的功能是一个非常耗时且代价高昂的过程，因此通过 GO 注释来预测基因功能一直是生物信息学的研究核心，同时生物学家们也在致力于探索如何能更准确地表达出 GO 条目、基因的语义。1.2 研究现状尽管语义相似性应用于生物信息领域的时间并不长，但目前已经有许多基于语义相似性进行比较的方法可为研究者使用，这些方法从比较的内容上可分为条目比较和基因比

11、较。用于条目的比较方法大致可分为两类：基于边和基于结点。基于结点的方法常用信息量（Information Content，IC）这一概念来量化条目的语2 基于基因本体的基因功能相似性度量义，条目的 IC 值主要依赖于条目在 GO 这个有向无环图中的位置或是当前的注释情况。基于边的方法则常常使用距离（distance ）的概念，距离完全依赖于条目在 GO 图中的位置，并不一定只是通过所要比较的条目之间的路径的边数来衡量相似性，也可借助于深度（depth），比如 Pekar 和 Staab5提出的借助于两个条目的最大的公共祖先深度，即所比较的两个条目在 GO 图中的最低公共祖先条目到根条目的最长路

12、径的边数。由于基因注释为多个条目，因此基因的功能比较依赖于条目集合，而非单个条目的语义衡量，用于基因的语义比较方法仍可分为两类：一类以条目对的方式比较，即不考虑同一注释集合中的条目之间的关系，首先对不同注释集合中的条目进行语义比较，然后基于条目间的语义相似结果得出基因的功能相似度，这一步可采取不同的策略，Lord 等人 6采取求所有条目对的相似度的平均值的策略，Wang 等人 7采取的策略是求最匹配条目对的相似度的平均值，等等。这类方法非常依赖于条目间相似性的比较效果。另一类是以成组方式比较，这类方法将同一注释条目集合中的条目看做一个整体，因此并不依赖条目间的语义相似性，目前成组比较的方法多考

13、虑基因的表示方式，Lee 等人 8将基因表示成其注释条目的集合，Chabalier 等人 9将基因表示成由条目构成的向量，此外还有其他表示方式。根据每种不同的形式可采取相应的相似性比较方法，然而这些方法大都忽略了注释条目本身的信息量，这也意味着基因的很多隐藏在 GO 中的语义还未被发掘出来，本文将着重讨论如何在成组比较基因相似性的方法中，结合信息量更准确地发掘出基因的语义。1.3 研究内容和目标在比较基因的功能相似性时，成组比较的方法更注重同一基因的注释集合中的条目间的关系，目前人们对条目的信息量做了很多研究，但对条目集合的信息量却讨论较少，只将集合中的条目的信息量进行简单求和，以此作为集合的

14、信息量，这显然并不合理。GO 条目之间存在“is-a”或 “part-of”的关系，当一个条目“继承”自另一条目（两者存在“is-a”关系）后，子条目会获得父条目的所有语义，此外在继承父条目语义的基础上，子条目还会拓展出属于自己本身特性第一章绪论 3的语义。一个条目可以产生若干子条目，如果两个条目之间存在共同的祖先条目，那么这两个条目必然会有共享语义。在计算条目集合的信息量时，如果只是将条目元素的信息量相加，那么条目成员间的共享语义无疑会被重复计算。本文提出一种新的以成组形式来衡量基因功能相似性的算法注释的语义重叠比（Semantic Overlap Ratio of Annotation，

15、SORA），通过组合条目的继承信息量和拓展信息量，可避免集合中条目间的共享语义被累加。不管是 GO 条目，抑或是基因，在衡量其相似性时都要考虑如何计算共享语义，Resnik 10方法借助信息量最多的公共祖先，DiShIn 11方法借助分离公共祖先信息量的平均值，而 SORA 方法中将以两个基因的注释集合的交集的信息量作为该对基因的共享语义。GO 条目可以通过 IC 值体现其具体程度，基因通过 GO 注释转化为条目集合后，也具备了特定的信息量，本文在 SORA 算法中考虑到基因本身的信息量以及浅注释的问题对衡量基因相似性产生的影响，提出一种新的方式来比较基因相似性。此外，考虑到 GO 条目并非是

16、以“树”的形式构建，而是以有向无环图的方式，这意味着 GO 条目间会有多重继承，因此本文还将对 SORA 算法提出一些修改，使其更加合理。之后通过以致病基因为测试数据进行实验，验证了 SORA 算法的合理性。1.4 论文章节安排本文剩余章节安排如下：第二章介绍了本文需要用到的基础知识，包括 GO 概述、基因注释，并对目前基因功能相似性的衡量方法进行分类叙述，其中介绍了几种经典的算法，并分别进行了分析。第三章详细介绍 SORA 算法，首先讨论单个条目的信息量的计算方法，接着阐述该算法之所以提出所针对的问题，继而引出继承和拓展信息量的概念，再以此为基础，提出计算条目集合信息量的算法。由于这一部分是

17、 SORA 算法的核心，所以将以较多的篇幅进行详细叙述，并通过一个具体的例子展示算法的执行流程。最后以集合信息量为基础，提出衡量基因的功能相似性的方法。4 基于基因本体的基因功能相似性度量第四章叙述 SORA 算法的实现以及对该算法的测试评估。首先对实现语言 R和算法实现过程中使用到的包进行介绍，然后对算法实现时所划分的各个模块进行详细叙述，最后通过以致病基因为测试数据进行测试，验证了算法的合理性。第五章对整篇论文进行总结，提出了 SORA 算法可以被其他算法借鉴的地方，以及后续可改进的方面，最后展望了基因功能相似性衡量方法的前景。第二章 GO 与基因相似性度量 5第二章 GO 与基因相似性度

18、量2.1 GO 概述GO 是一个受控的、有结构组织、独立于物种的词汇集合，其提出的初衷在于为不同数据库间的基因产物的功能提供一致的描述 12。基因本体由三个互不重叠的本体组成，分别为分子功能（Molecular Function，MF ）、生物过程（Biological Process，BP）、细胞组分（Cellular Component，CC ），每个本体内部都有代表不同含义的条目。GO 中的每个条目都有唯一的标识符来区分，条目以不同的关系相连构成一个层级图，大部分条目间的关系为“is-a”和“part-of”，所描述的功能相近的条目在图上的位置更加接近。MF 本体内的条目主要描述与基因的

19、功能相关的特性，比如基因的功能范围，BP 本体内的条目主要与基因的交互有关，因此可用来预测基因功能和分析共同表达数据，CC 本体内的条目主要用来验证与基因在细胞中的位置密切相关的过程和活动。一个基因或基因产物可映射为与之相关的若干 GO 条目集合，这一过程称为GO 注释，通过 GO 注释得到的条目集合的语义相似性可作为基因功能相似性的一种度量。在 GO 有向无环图中，存在如下性质：下层的条目比上层的条目更为具体，即从父条目到子条目，含义是逐层丰富的，条目的深度越大，可提供的信息越多，因此，应该尽可能选择下层的条目来注释基因产物。此外，由于子条目继承了父条目的语义，因此基因如果被某个条目注释，则

20、也将被此条目的所有祖先条目注释，前者称为直接注释，后者称为间接注释，这也称为 GO 注释的真路径法则。目前由基因本体联合会（GO Consortium）负责开发和维护 GO 条目及其关系、对基因的注释方面的工作。2.2 基因的相似性度量两个实体的语义相似性可被定义为一个具有以下特性的函数，当向该函数传6 基于基因本体的基因功能相似性度量入注释这两个实体的本体条目集合后，此函数会返回一个数值来显示这两个实体在含义上的接近程度 13。两个基因被一些 GO 条目注释后，其功能相似性可以由其注释条目间的语义相似性推断，如果注释条目的语义相似，那么可以认为该对基因具有相似的功能。因此，研究者们提出了很多

21、基于语义相似性分析基因的功能相似性的方法，这些方法从比较方式上可以分为两类：成对比较和成组比较。2.2.1 成对比较在此类方法中，每一个基因表示成其直接注释条目的集合，两个基因的功能相似性通过组合一个注释集合中的条目与另一注释集合中的条目之间的语义相似性来得到。给定两个基因 G1、G 2，其注释条目集分别为 S1、 S2。成对比较方法的第一步是将基因 G1 的注释集合 S1 中的每一个条目与基因 G2 的注释集合 S2 中的每一个条目进行语义相似性比较，假设 S1 中有 m 个条目（即基因 G1 被 m 个条目注释），S2 中有 n 个条目（即基因 G2 被 n 个条目注释），那么在对所有条目

22、对进行比较后，可以得到 mn 个结果。第二步根据不同的需求，对上一步得到的 mn 个数值采取相应的策略得到基因 G1、G 2 的功能相似性。可以看到，成对比较方法的一个关键在于条目对的语义相似性的比较，此时常常借助 IC 这一概念，一个条目的 IC 是一个可以量化该条目能够提供多少信息的数值，含义越具体的条目，其 IC 值越大，由于本文所提出的算法中对信息量有较多的讨论，故此处不详细叙述。下面只介绍几种常用的条目相似性的比较方法。Resnik 方法借助两个条目信息量最大的公共祖先（ Most Informative Common Ancestor，MICA）来衡量两个条目的相似度，如式（ 2

23、-1）所示。式(2-1)(1,2)=()在图结构中，两个结点的公共祖先可代表这对结点的共享语义。Resnik 方法虽然能刻画出两个条目的共有的信息量,却无法体现出条目间的差异性,Lin 14和Jiang&Conrath15在 Resnik 方法上做出一些改进，考虑到所比较的条目与 MICA的距离,定义分别为式（2-2）和式（2-3）。第二章 GO 与基因相似性度量 7式(2-2)(1,2)=2()(1)+(2)式(2-3)(1,2)=1(1)+(2)2()在成对比较方法的第二步中采取的策略通常有三种：取最大值（MAX）、取所有对的平均值（AVG）、取最匹配对的平均值（ BMA）。AVG 策略对

24、第一步得到的结果不加选择，取所有条目对的相似度的平均值作为基因 G1、G 2 的相似性。这种策略可能会低估基因的相似性，若两个基因的注释条目集合完全相同，则 AVG 策略的计算结果是该对基因的相似度为 0.5，而实际上，由于其注释条目完全匹配，相似度应该为 1。MAX 策略取第一步所得结果中最匹配的条目对的相似度来衡量基因 G1、G 2的相似性。显然，这种策略会高估基因的相似性，若两个基因的注释集合中有相同的条目，则 MAX 策略认为该对基因的相似度为 1，这完全忽略了其他不同注释条目的影响。但是在某些应用中，可能需要判断两个基因是否有共同的方面，而不在乎相似的程度，这时可以使用 MAX 策略

25、。BMA 策略在第一步得到的结果中，每一个条目只选取与其最匹配的条目，即相似性最大的条目，如此将结果的数目缩小为 m+n，计算这 m+n 个结果的平均值，作为基因 G1、G 2 的相似性。这种策略是 AVG 和 MAX 两种策略的折衷，往往能较为准确地衡量两个基因的相似性。2.2.2 成组比较成组比较的方法并不依赖两个注释集合中条目之间的相似性，而是将同一注释条目集合看做一个整体，这些方法从基因的表示形式上大致可分为三类：基于集合、基于图和基于向量。基于集合的方法将基因表示成其完整的注释条目集合，常会用到条目重叠（Term Overlap，TO） 16这一概念，即借助两个注释条目集的交集来比较

26、基因的相似性，如 Lee 等人提出的方法借鉴 Jaccard 指数，以 TO 中元素的数目来衡量基因的相似性，集合 A、B 的 Jaccard 指数定义如式（ 2-4）所示。之后又在 TO 的基础上结合条目的 IC，引入图信息量（Graph Information Content，GIC） 17这一8 基于基因本体的基因功能相似性度量概念，注释条目集分别为 S1、S 2 的基因 G1、G 2 的相似性计算如式（2-5）所示。式(2-4)(,)=|式(2-5)(1,2)=12()12()基于图的方法将基因表示成由其注释条目构成的 GO 子图，然后使用图匹配技术衡量基因的相似性。然而由于图匹配算法

27、往往具有很高的计算复杂度，所以这种方法并不常用。基于向量的方法将基因表示成各个维度对应一个条目的二值向量（只有 0 和1），如果该维度为 1，则表示基因被该条目注释，反之则反，这种方法通过计算两个向量的余弦相似度或者条目共同出现的概率来衡量两个基因的相似性。向量A 和 B 的余弦相似度 CoSim 定义如式（2-6 ）所示。式(2-6)(,)=|2+|2-第三章注释的语义重叠比算法 9第三章注释的语义重叠比算法3.1 条目信息量的计算信息量是一个衡量条目含义的具体程度，或言之，条目可提供多少信息的数值。很多相似性比较的算法都需要借助信息量，然而其计算方法并没有一个统一定论，因为在不同的环

28、境下，人们对条目的具体性（specificity）有不同的理解。常用的计算信息量的方法有两种：一是基于语料库，二是基于 GO 的图结构。在基于语料库的方法中，条目 t 的信息量需要借助条目的注释频率，定义如式（ 3-1）所示。式(3-1)ICcorpus()=()其中 p(t)是条目 t 及其后代在特定 GO 注释语料库中的出现频率，假如一个语料库中有 50 个被注释的基因，其中有 10 个基因被条目 t 注释，则条目 t 的注释频率 p(t) = = 0.2。1050当注释语料库中的基因数量变化时，条目的注释频率会受到影响，因此这种计算方法使得条目的信息量依赖于它所注释的基因数目在整个语料库

29、中的比例，无法客观地反映出该条目所含信息的多少，且会受到研究偏见，显然那些处于研究热点的基因，其注释条目的信息量会显著增加。另一种方法基于 GO 图结构，不考虑条目与基因的注释关系，而只考虑条目自身的特性，如有多少后代条目，这种方法下条目 t 的信息量定义为式（3-2 ）。式(3-2)()=()+1)_log(1_) =1log()+1)(_) 其中 desc(t)是条目 t 的后代数目，total_terms 是条目所在的本体（BP 、 MF、 CC 之一）中的条目总数。这种方法对同一条目在不同的注释语料库间可以产生一致的 IC 值，使信息量不会受到注释的影响，这比基于语料库的方法显得更合理

30、，但对于叶子条目（没有后代的条目）而言，式（3-2）计算得到的结果为 1，这意味着所有叶子条10 基于基因本体的基因功能相似性度量目的信息量是相同的，显然有悖于事实，因为位于 GO 图上层的叶子条目并不如处于下层的叶子条目具体，所以其信息量也应有所差异。3.2 继承信息量和扩展信息量在 GO 概述中已经介绍，条目的信息量与其深度成正相关，在 GO 图结构中，越处于下层的条目，其含义越具体，换言之，其信息量越大。但是如果限定条目的信息量只与深度一个因素有关，那么同一深度的条目的信息量的差异则无从体现。借鉴上文中提到的基于 GO 图结构计算信息量的方法，引入条目后代的数目这一因素，当一个条目的后代

31、数目越多时，此条目扩展的语义便越多，也意味着这个条目越不具体，即信息量越小。结合深度和后代数目两个因素，本文提出一种新的计算条目信息量的方法，定义如式（3-3）。()=()()式(3-3)=()(1()+1)(_)其中 Specificity(t)要用到条目 t 在 GO 图中的最大深度，考虑到整个图的结构，故用该条目的深度与条目所在本体子图的最大深度之比作为 Specificity(t)的值，而条目的 Coverage 则使用式（ 3-2）。这种计算方法可以避免条目的信息量受到注释语料库的影响，而且考虑的因素更加全面，更能客观而准确地反映出条目的语义。上文提到过在 GO 注释中的真路径法则如

32、果基因被一个条目注释，那么该基因也将被此条目的所有祖先条目注释据此可以推断，祖先条目的语义是其后代条目语义的概述，而后代条目的语义则是在祖先条目的语义的基础上扩展得到的。当两个条目之间存在父子关系时，子条目会获得父条目的所有语义，同时扩展出自己的语义，因此，一个条目的语义可以分成两部分：继承语义和扩展语义，继承语义是从父条目继承下来的语义，而扩展语义则是该条目的自身属性，相应地，使用继承 IC 和拓展 IC 分别用于量化继承语义和拓展语义。如果条目 t1 是条目 t2 的祖先，则条目 t2 从 t1 的继承信息量等于条目 t1 的信息量，即 ICinherit(t1 t2) = IC(t1)，

33、而 t2 对 t1 的扩展信息量定义为条目 t2 与 t1 的信息量之差，如式（3-4）所示。第三章注释的语义重叠比算法 11式(3-4)ICextend(t1 t2)= IC(t2) IC(t1)类似地，给出一个条目 ti 的祖先条目集合 AS(ti)， ti 从该集合的继承信息量为此集合的信息量 IC(AS(ti)，而 ti 对该集合的拓展信息量定义为 ti 与集合 AS(ti)的信息量之差，如式（3-5）所示。式(3-5)ICextend(AS(ti) ti) = IC(ti) IC(AS(ti) 3.3 计算集合的信息量计算一个条目集合的信息量时，现有方法是将其成员条目的信息量直接相

34、加，但是 GO 本身含有“继承”的内在特点，条目之间存在“is-a”或“part-of”的关系，因此条目之间可能会共享信息量。假设条目集合 S 中有条目 t1 和 t2，这两个条目有一个公共祖先条目 tc，则条目 t1 和 t2 从条目 tc 继承的语义是相同的，但拓展语义有所差别，如果采用以往的方法，则条目集合 S 的信息量的计算结果如式（3-6）所示。IC(S) = IC(t1) + IC(t2)= IC(tc) + ICextend(tc t 1) + IC(tc) + ICextend(tc t 2)= 2IC(tc) + ICextend(tc t 1) + ICextend(tc

35、t 2) 式(3-6)从式（3-6 ）中可以看到使用通常方法计算条目集合 S 的信息量，会使条目间的共享信息量 tc 被重复计算，而实际应该只计算一次。下面介绍一种方法，通过合并集合中条目的继承和拓展信息量能够有效地避免上述问题。3.3.1 算法描述对于一个条目成员之间存在“继承”关系的集合而言，由于后代条目已经涵盖了祖先条目的语义，因此祖先条目对整个集合表现出的语义实际并没有贡献，因此在计算一个条目集合的信息量时，首先要在集合中去掉后代也存在于集合中的条目，然后将剩余条目的信息量“相加”，这里所谓的“相加”意指对已经求出信息量的集合，在要加入新的条目时，只需加入该条目的拓展信息量。为言简12

36、基于基因本体的基因功能相似性度量意赅之便，下列叙述中将使用以下简称：CET(X) 代表由集合 X 中后代不存在于X 中的条目构成的集合，即，t extend 表示在 | ( () )每一轮循环中从 CET(X)中选出用于拓展集合 X 的条目，ES extend 表示由 textend 及其祖先条目构成的集合，ES i (X)表示第 i 轮循环结束时 X 的拓展条目集，OST i 表示第 i 轮循环过程中 X 当前的拓展条目集中所包含的 textend 的祖先条目。算法的简要步骤如下：1. 根据输入 X 计算 CET(X)2. 用式（3-3）计算 CET(X)中每个条目 t 的信息量 IC(

37、t)3. 在 CET(X)中选择 textend 来拓展 ESi(X)4. 产生 ESextend 和 OSTi5. 计算 ICextend(OSTi t extend)6. 在 CET(X)中去掉 textend，并更新 ESi (X)7. 返回第 3 步直到 CET(X)为空上述步骤中的一些具体操作方法，如怎样在 CET(X)中选择 textend，ES extend 和OSTi 的计算方式等用文字叙述较为晦涩，下面以伪代码的形式详细展示算法的执行流程。输入：条目集合 X=t1,t2,.,tn计算 CET(X)为每一个 CET(X)中的条目 ti 计算其信息量 IC(ti)IC0(X) 0

38、ES0 n | CET(X) |i 1 while i=n| () ()()()1()if OSTi ICi(X) IC i-1(X) + ICextend(OSTi t extend )elseICi(X) IC i-1(X) + IC(textend)end if1CET(X) CET(X) textend 第三章注释的语义重叠比算法 13i+end whileIC(X) = ICn(X)输出：条目集合的信息量 IC(X) 3.3.2 算法示例以下通过一个例子阐述算法的执行流程。基因 Q9BPW9 在 MF 本体中的注释条目集为GO:0004022， GO:0004745，GO:0047

39、035，GO:0016854，由于此集合中每个条目之间都没有继承关系，故 CET 集合与原始输入一致，n=4，利用式（3-3）计算集合中条目的信息量，结果如表 3.1 所示。表 3.1 CET 集合中条目的 IC 值条目 GO:0004022 GO:0004745 GO:0047035 GO:0016854信息量(IC) 0.2901 0.3750 0.4375 0.1373执行算法的过程中，本文在文字叙述的基础上辅助以相关条目构成的 GO 子图，图 3.1 至 3.4 分别展示了每一轮循环中涉及到的条目在 GO 图中的位置和关系，每幅图中圆角矩形中的条目代表该轮循环中的 textend，有灰

40、色阴影的条目构成OSTi 集合，每一幅图中包含的所有条目构成该轮循环结束后的 ESi 集合。此外，表 3.2 也展示了每一轮循环中关键变量的值以及集合信息量的变化。表 3.2 每轮循环中关键变量的值循环 1st 2nd 3rd 4thtextend GO:0047035 GO:0004745 GO:0004022 GO:0016854OSTi GO:0003674 GO:0003824 GO:0016491 GO:0016614 GO:0016616GO:0003674 GO:0003824 GO:0016491 GO:0016614 GO:0016616GO:0003674 GO:00038

41、24ICi 0.4375 0.6977 0.8730 1.004614 基于基因本体的基因功能相似性度量在首轮循环中，拓展条目为 GO:0047035，图 3.1 中所有椭圆中的条目为GO:0047035 的祖先条目，由于 ES0 为空集，故 OST1 为空集，所以 IC1 = IC0 + IC(textend) = 0.4375，即此时集合的信息量为条目 GO:0047035 的信息量，CET 集合中去掉 GO:0047035，为GO:0004022 ，GO:0004745，GO:0016854。GO:0004745GO:0003674GO:0003824GO:0016491GO:00166

42、14GO:0016616GO:0016229GO:0033764GO:0047035GO:0003674GO:0003824GO:0016491GO:0016614GO:0016616GO:0016229GO:0033764GO:0047035图 3.1 首轮循环拓展的条目集合图 3.2 次轮循环拓展的条目集合在第二轮循环中，拓展条目为 GO:0004745，其祖先为图 3.2 中有灰色阴影的条目，同时构成 OST2 集合，此时如果要在集合 ES1 中加入条目 GO:0004745，则整个集合的信息量只需在 IC(ES1)的基础上加入条目 GO:0004745 从 OST2 拓展出的信息量。

43、因为此时 IC(OST2)代表着条目 GO:0004745 与 ES1 的共享语义，所以不应该再次加入到集合的信息量中，而要计算 ICextend(OST2 textend)，则需要知道集合 OST2 的信息量。从图 3.2 可以看到，OST 2 集合的条目成员之间存在“继承”关系，其余条目成员均是 GO:0016616 的祖先，所以集合 OST2 的信息量即为GO:0016616 的信息量，通过式（3-3）计算得 IC(GO:0016616)为 0.1148，故IC(OST2) = 0.1148，所以 ICextend(OST2 textend) = IC(GO:0004745) IC(OS

44、T2) = 0.3750 0.1148 = 0.2602。此时在 IC1 的基础上加入 GO:0004745 从 OST2 拓展出的语义，则完成第二轮循环，IC 2 = IC1 + ICextend(OST2 textend) = 0.4375 + 0.2602 = 0.6977，而 ES2 为 ES1 与 GO:0004745 的祖先条目的并集，即图 3.2 中的所有条第三章注释的语义重叠比算法 15目，CET 集合为GO:0004022，GO:0016854 。在第三轮循环中，拓展条目为 GO:0004022，图 3.3 中有灰色阴影的条目为GO:0004022 的祖先条目，构成 OST

45、3 集合，从图 3.3 中可以看出本轮循环中的拓展条目 GO:0004022 与上一轮循环中的拓展条目 GO:0004745 有相同的祖先条目集合，所以 GO:0004022 与集合 ES2 的共享语义和 GO:0004745 与集合 ES1 的共享语义是一致的，本质原因在于被拓展的条目集合 OST3 与 OST2 是相同的。同理，要在集合 ES2 中加入条目 GO:0004022，只需加入 GO:0004022 由 OST3 拓展出的语义，因为 OST3 与 OST2 相同，计算 OST3 信息量的方法与前文一致，此处不再赘述，故 IC(OST3) = IC(OST2) = 0.1148，则

46、拓展信息量 ICextend(OST3 textend) = IC(GO:0004022) IC(OST3) = 0.2901 0.1148 = 0.1753，第三轮循环结束时 IC3 = IC2 + ICextend(OST3 textend) = 0.6977 + 0.1753 = 0.8730，此时 ES3 为 ES2 与GO:0004022 的祖先条目的并集，即图 3.3 中所示的所有条目， CET 集合中只有GO:0016854。GO:0004022GO:0003674GO:0003824GO:0016491GO:0016614GO:0016616GO:0016229GO:00337

47、64GO:0004745GO:0047035图 3.3 第三轮循环拓展的条目集合在第四轮循环中，拓展条目为 GO:0016854，其祖先条目为GO:0003674，GO:0003824 ，GO:0016853，图 3.4 中有灰色阴影的条目为 textend的祖先条目集合与 ES3 的交集，即 OST4。如果向集合 ES3 中加入条目16 基于基因本体的基因功能相似性度量GO:0016854，而 GO:0016854 自 OST4 的继承语义已经包含在 IC3 中，那么只需在IC3 中加入 GO:0016854 由 OST4 拓展出的语义即可。既然要求拓展信息量，须得知道被拓展的条目集合 OST4 的信息量，集合 OST4 只有两个成员，从图中可以看到为父子条目关系，通过式（3-3）求得条目 GO:0003824 的 IC 值为 0.005

展开阅读全文