分享
分享赚钱 收藏 举报 版权申诉 / 38

类型疾病关键基因地挖掘方法及其应用论文.pdf

  • 上传人:weiwoduzun
  • 文档编号:1766920
  • 上传时间:2018-08-22
  • 格式:PDF
  • 页数:38
  • 大小:342.10KB
  • 配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    疾病关键基因地挖掘方法及其应用论文.pdf
    资源描述:

    1、 论文题目: 疾病关键基因的挖掘方法及其应用 作者姓名: 杨梅茜 入学时间: 2009 年 9 月 专业名称: 应用数学 研究方向: 生物信息与智能计算 指导教师: 王淑栋 职 称: 教 授 论文提交日期:2012 年 5 月 论文答辩日期:2012 年 6 月 授予学位日期: A METHOD OF MINING KEY GENES OF DISEASES AND ITS APPLICATIONS A Dissertation submitted in fulfillment of the requirements of the degree of MASTER OF SCIENCE fro

    2、m Shandong University of Science and Technology by Yang Meixi Supervisor: Professor Wang Shudong College of Information Science and Engineering May 2012 声 明 本人呈交给山东科技大学的这篇硕士学位论文,除了所列参考文献和世所公认的文献外,全部是本人在导师指导下的研究成果,该论文资料尚未呈交于其它任何学术机关作鉴定。 硕士生签名: 日 期: AFFIRMATION I declare that this dissertation, submit

    3、ted in fulfillment of the requirements for the award of Master of Science in Shandong University of Science and Technology, is wholly my own work unless referenced of acknowledge. The document has not been submitted for qualification at any other academic institute. Signature: Date: 山东科技大学硕士学位论文 摘要

    4、摘 要 从诸多致病基因中发掘疾病的“关键”基因,对一些顽症的诊断与治疗以及药物设计都具有重要意义,也是当前生物信息学研究的一个重要课题。本文通过打分方法,对脑神经胶质瘤和结肠癌的相关基因进行探讨,从中发掘相应疾病的关键基因。具体内容如下: 基于疾病相关基因组在正常和疾病各分期的系统发生谱表达数据,通过逆向网络建模方法构建相应的互信息相关网络。利用已建立的互信息相关网络和疾病的相关表型,根据疾病表型与基因的关系以及疾病与表型的关系,分别从基因和疾病角度建立疾病的表型网络:前者建立的表型网络称为逆向表型网络,后者建立的表型网络称为正向表型网络。分别比较正向和逆向表型网络在疾病各分期相似度的连续变化

    5、情况,当相似度达到最大时,正常脑组织和脑神经胶质瘤 I 期、 II 期、 III 期和 IV 期基因网络的阈值分别为 0.50、0.53、0.58、0.69 和 0.67;正常结肠组织和结肠癌 I 期、 II 期和 III 期基因网络的阈值分别为 0.53、 0.50、 0.50 和 0.50。阈值确定后,我们得到相应疾病各个期对应的基因网络和表型网络。通过打分方法,挖掘出脑神经胶质瘤的 7 个关键基因和结肠癌的 11 个关键基因。在脑神经胶质瘤的 7 个关键基因中,有 5 个基因已被资料证实与脑神经胶质瘤的发生发展密切相关,剩下 2 个基因 AR 和 ARAF 中,基因 ARAF 也参与脑神

    6、经胶质瘤发生发展的生物路径;在结肠癌的 11 个关键基因中,有 9 个基因已被资料证实与结肠癌的发生发展密切相关,剩下的 2 个基因 TCL1A 和 MCF2 未有报道与结肠癌有关。我们预测 4 个基因 AR、 ARAF、 TCL1A 和 MCF2 可能在相应疾病的形成和发展过程中起重要作用。 提出用信息熵相关系数代替互信息建立基因网络。基于脑神经胶质瘤相关基因组在正常脑组织和脑神经胶质瘤 I 期、 II 期、 III 期和 IV 期的表达谱数据,利用信息熵相关系数,通过逆向网络建模方法构建相应的基因网络。重复上述确定阈值的方法,得到正常脑组织和脑神经胶质瘤 I 期、 II 期、 III 期和

    7、 IV 期的基因网络的阈值分别为 0.47、 0.50、0.50、 0.50 和 0.50。通过打分方法,最后挖掘出脑神经胶质瘤的 6 个关键基因,其中 5个基因已被资料证实与脑神经胶质瘤的发生发展密切相关,剩下 1 个基因 AR 未有报道与脑胶质瘤有关。比较信息熵相关系数与互信息两种方法所得结果发现:上述两种构建基因网络方法分别得到 7 个和 6 个脑神经胶质瘤关键基因,其中 6 个基因相同。进一步的文献查询发现 6 个相同基因中有 5 个基因都与脑神经胶质瘤的发生发展密切相关。两山东科技大学硕士学位论文 摘要 组关键基因中都出现 AR,我们预测基因 AR 可能在脑神经胶质瘤的形成和发展过程

    8、中发挥着重要作用。 关键词:系统生物学;基因网络;表型网络;基因表达谱;互信息;关键基因山东科技大学硕士学位论文 摘要 ABSTRACT Finding genes that are critical to the formation and development of a disease from potentially disease-related genes is of significance to diagnosis and cure of disease and drug design. This is an important component in the researc

    9、h of bioinformatics. In this thesis, we try to find key genes of glioma and colon cancer with a scoring method. The details are as follows: Based on genes expressions profiles data of brain and colon tissues with and without cancer, respectively, the corresponding gene mutual information networks ar

    10、e constructed through reverse network modeling. Based on these established mutual information networks and phenotypes of corresponding disease, phenotype networks of diseases are constructed from the view of gene and disease according to relationships between phenotypes and genes and relationships b

    11、etween diseases and phenotypes, respectively. Comparing the two types of phenotype networks, when their similarities reach to maximum, the thresholds of gene networks for normal stage, stage I, II, III and IV of glioma are 0.50, 0.53, 0.58, 0.69 and 0.67, respectively; the thresholds of gene network

    12、s for normal stage, stage I, II and III of colon cancer are 0.53, 0.50, 0.50 and 0.50, respectively. Finally, we find seven key genes of glioma and eleven key genes of colon cancer by scoring method. Our literature review shows that five of the seven key genes are closely related to the formation an

    13、d development of glioma, leaving AR and ARAF open. Furthermore, ARAF participates in the formation of glioma. Nine of the eleven key genes are closely related to the formation and development of colon cancer, leaving TCL1A and MCF2 open. Therefore, we predict the four open genes may play important r

    14、oles in the formation of corresponding disease. These predictions call for empirical studies. Furthermore, we try to establish gene networks by information entropy correlation coefficient instead of mutual information. In this research, gene networks of cancer-related genes are constructed based on

    15、their expression data in glioma tissues with and without cancer. We use the above method to determine thresholds of gene networks. The details are as above. Then, the thresholds of gene networks for normal stage, stage I, II, III and IV of glioma are 0.47, 0.50, 0.50, 0.50 and 0.50, respectively. Fi

    16、nally, we find six key genes of 山东科技大学硕士学位论文 摘要 glioma by scoring method. Our literature review shows that five of the six genes are closely related to the formation and development of glioma, leaving AR open. Comparing the two groups of key genes determined by mutual information and information ent

    17、ropy correlation coefficient, there are seven and six key genes, respectively. We find six of the two groups of key genes of glioma are the same. Moreover, our literature review shows that five of the six overlapped key genes are closely related to the formation and development of glioma, leaving AR

    18、 open in both two groups of key genes. So we predict AR may play important role in the formation of glioma. The prediction calls for empirical studies. Key words: Systems Biology, Gene Network, Phenotype Network, Gene Expression Profiles, Mutual Information, Key Gene 山东科技大学硕士学位论文 目录 目 录 1 绪 论 . 1 1.

    19、1 研究背景 1 1.2 本文的研究内容 4 2 疾病关键基因的挖掘方法及其在脑胶质瘤和结肠癌中的应用 5 2.1 互信息相关基因网络的建立 .5 2.2 基因网络阈值的确定方法 8 2.3 脑胶质瘤关键基因的选取方法 .10 2.4 结肠癌关键基因的选取和分析 .12 3 基因网络构建方法的改进及其应用 . 16 3.1 基于信息熵的基因网络构建及应用 16 3.2 基于模糊互信息的基因网络构建及应用 .18 4 总结与展望 . 22 致 谢 . 25 攻读硕士阶段发表和完成的论文 . 26 参考文献 . 27 山东科技大学硕士学位论文 目录 Contents 1 Introduction

    20、.1 1.1 Research Background 1 1.2 Research Contents. 4 2 A Method of Mining Key Genes and Its Applications in Glioma and Colon Cancer5 2.1 Establishment of Mutual Information Networks of Genes 5 2.2 A Method of Determining Thresholds of Gene Networks 8 2.3 A Method of Selecting Key Genes of Glioma. 1

    21、0 2.4 Selection and Research of Key Genes of Colon Cancer . 12 3 Improvement in Modeling Gene Networks and Its Applications16 3.1 Building Gene Networks Based on Information Entropy and Its Applications. 16 3.2 Building Gene Networks Based on Fuzzy Mutual Information and Its Applications . 18 4 Conc

    22、lusions and Perspectives.22 Acknowledgements25 Main Work Achievement of the Author during Working on Master Degree 26 References 27 山东科技大学硕士学位论文 绪论 1 绪 论 1.1 研究背景 人类大约有几万个基因,储存着生命孕育生长、凋亡过程的全部信息,通过复制、表达、修复,完成生命繁衍、细胞分裂和蛋白质合成等重要生理过程(例如疾病的产生等) 。人类所有疾病的形成和发展都是人类基 因组与病原基因组中的有关基因相互作用的结果。即使是物理的病因,如中毒和外伤,其机体

    23、的最初反应、病情的发展与组织再生,都与相关的基因有关。所有的药物都是通过基因起作用的,都是通过修饰基因的本身结构,改变基因的表达调控,影响基因产物的功能而起作用的。即使是非药物治疗手段,也都涉及到基因活动的改变。因此,从系统角度寻找疾病的关键基因,从而进行针对性的防治已成为系统生物学近年来研究的热点之一1。近年来,各个领域的科学家已经建立了一些识别疾病特征基因有效的分析方法2-14,例如聚类分析、支持向量机、决策分析法、递归分割树、 K 均值信息指数分类、模式识别、高维数向量分析等。 Alon等对结肠癌细胞的基因表达数据进行聚类分析,得到了一些基因表达谱与肿瘤之间的对应关系2。 2002 年,

    24、 Guyon 等3在递归特征排除法的基础上提出了支持向量机方法来选择关键基因,并将此方法用于白血病和结肠癌,发现 2 个白血病关键基因和 4 个结肠癌关键基因。2004 年,Li 等4提出集成决策方法来挖掘关键基因,并用此方法分析结肠癌数据集,最后识别出 20 个高度显著的结肠癌基因。 鉴定生物体内实际基因间的相互作用关系,对于理解生命系统的功能有重要意义。目前,对于生物系统网络建模方法主要有两种:基于各个生化实验的正向网络建模和基于数据的逆向网络建模。正向建模是用详细的数学模型从转录和翻译水平入手来描述一个或几个基因的表达,包括转录因子和RNA 聚合酶对DNA 的结合、特定抑制因子或活化因子

    25、的作用、不同成熟阶段 mRNA和蛋白质的形成以及内部反馈环路或者外部调节因子的调节作用。这种建模方法是基于对基因表达中的一些过程和相互作用的认识和假说而建立的,如通过集成各个独立的关联性实验数据构建网络,包括从文献和数据库查找的数据,它适合于大多数已经了解部分结构而只需要进行完善的情况。但是,高通量的数据使得人们更关注逆向网络 建模。逆向网络建模是从系统因子高通量的基因表达谱(如不同时间点或不同个体的表达水平)数据出发,利用各种数据分析方法挖掘因子间1 山东科技大学硕士学位论文 绪论 的关联关系,继而建立复杂基因网络,通过对基因网络的分析来预测基因组的功能。逆向网络建模在基因网络研究中已有广泛

    26、的应用15-24。 Friedman等21利用酵母的表达谱数据,率先将Bayesian 网络建模方法应用于基因调控网络的构建。 2006年, Werhli等22从系统表达谱数据出发,分别利用相关网络,Gaussian 模型和 Bayesian模型三种逆向网络建模方法构建了Raf 信号转导网络,发现Gaussian 模型和 Bayesian模型构建的网络没有显著差异,但二者均比相关网络要优。 Perkins等23利用微分方程建模方法,研究和分析了果蝇的基因调控网络,说明了基因的活化作用。 Wang等24利用信息熵的逆向网络建模方法构建了拟南芥多种刺激下的基因逻辑网络,并对所建逻辑网络进行了动力学

    27、模拟和分析。 在构建生命系统对应的生物网络过程中,选择合适的阈值继而对网络进行适当粗粒化是发现机体内在机理的重要前提。研究者们已在这方面做了大量工作25-33。 Zhang 等25通过计算基因对间的共表达相似性,将相似得分作为基因对间的连接强度,构建了基因加权网络,得到基因间的模块关系在加权网中比非加权网中更紧密。Butte 等26基于60 个癌细胞系的 7245 个基因表达谱数据和 5084 个对应的抗癌药物,找到基因表达和药物敏感性间的关系,为了与随机噪音区分,选取 0.8 作为阈值,发现基因和抗癌药物关联的特异性。 Vo y 等27从遭受轻微电离辐射的老鼠脾脏细胞得到基因微阵列数据,基于

    28、基因相关的分布来选择相关阈值,最后找到一些基因网络的派系。 Langston 等31利用固定参数易处理性,开发出强大的图算法,得到需要的基因集合,并在此基础上,用本体论距离、统计显著性及不同的网络结构属性来获得相关阈值。2009 年,Borate 等33比较了六种不同确定阈值的方法基于最大派系的数目、基于对照基因的相关、取相关基因对的前 1%、基于光谱图聚类、 p_value 的 Bonferroni 相关和统计学方法,发现基于网络结构确定阈值的基因网络 比基于统计学方法确定阈值的基因网络更接近生物系统中真实的关系。 本文主要研究对象是脑神经胶质瘤和结肠癌。脑神经胶质瘤,简称胶质瘤,是发生于神

    29、经外胚层的肿瘤。神经外胚层发生的肿瘤有两类,一类由间质细胞形成,称为胶质瘤;另一类由实质细胞形成,称神经元肿瘤。由于从病原学与形态学上还不能将这两类肿瘤完全区别,而起源于间质 细胞的胶质瘤又比起源于实质细胞的神经元肿瘤常见得多,所以将神经元肿瘤包括在胶质瘤中,统称为胶质瘤。脑神经胶质瘤,特别是恶性胶质瘤,是人类肿瘤中最致命的癌症之一。胶质瘤组织按照其恶化程度可以分为四个期:I期、II期、 III期和 IV期。脑神经胶质瘤的出现是由于染色体周期性改变的累积引起的,2 山东科技大学硕士学位论文 绪论 其中涉及到还没被发现的癌基因。从基因水平重新考虑胶质瘤的发生、发展和治疗,确定其起源细胞和寻找治疗

    30、性分子靶点等研究,是当今肿瘤研究的前沿课题34-35。目前,生物医学家已在脑神经胶质瘤的研究上取得较大进展36-42。 2009 年, Bredel等42基于美国多个学术中心和癌症基因组图试点项目(TCGA)的多维基因表达谱和 501 位胶质瘤患者的临床表达谱,描述了胶质瘤的联合遗传网络模型。研究发现:在胶质瘤中,周期性的染色体畸变形成的多重网络基因变化 解除了对多重联合机制 的临床信号路径的控制。 结肠癌是结肠粘膜上皮在环境或遗传等多种致癌因素作用下发生的恶性病变,也是常见的恶性肿瘤之一,严重危害人们的健康。而且,研究发现结肠癌的侵袭与转移,是影响结肠癌患者预后和导致患者死亡的重要原因。尽管

    31、结肠癌的确切发病机理尚未完全阐明,但是对肿瘤发病机制的进一步研究,使人们已从过去单一的物理致癌、化学致癌、病毒致癌、突变致癌学说上升到多步骤、多因素综合致癌理论。近年来,通过对结肠癌病因和发病机制的研究,生物医学家普遍认为人类结肠癌的发生和发展是一个复杂的多基因多阶段多步骤改变的过程。结肠癌组织按照其恶化程度可以分为四个期: I 期、 II期、III 期和 IV 期。具体来说,临床上对各个时期的解释为:I 期(Dukes A 期):癌局限于肠壁内(A0 期:癌局限于粘膜;A1 期:癌局限于粘膜下层; A2 期:癌侵及肠壁肌层未穿透浆膜); II 期( Dukes B 期):癌侵润至肠壁外,穿透

    32、浆膜,但无淋巴结转移;III 期( Dukes C 期):癌侵润至肠壁外,穿透浆膜同时伴有淋巴腺转移(C1 期:近处淋巴转移(肠旁);C2 期:远处淋巴转移(系膜);IV 期(Dukes D 期):已有远处转移或广泛侵及临近脏器无法切除。 本文研究涉及到三类基因:组织特异性基因(Tissue-specific Gene ,简称为 TSG)、疾病表型相关基因和癌相关基因,它们在机体的生长、发育等生命过程中起着非常重要的作用。 TSG 是指不同的细胞类型进行特异性表达的基因,其产物赋予各种类型细胞特异的形态结构特征与特异的生理功能,如卵清蛋白基因、上皮细胞的角质蛋白基因和胰岛素基因等。表型又称为性

    33、状,代表生物体可观察到的结构和功能特性的总和,是基因型与环境相互作用的结果,具体来说,是指个体形态、功能等各方面的表现,如身高、肤色、血型、酶活力、药物耐受力乃至性格等等。1911 年,丹麦遗传学家 W.L.约翰森提出了两个遗传学名词:基因型和表型。遗传后染色体自有重组会产生新的“基因型”,但不同的基因型不一定都有不同的表现,而生物体外在表现出来的就是所谓“表型” ,所以一个基因可能对应着多个表型,一个表型也可能和多个基因有关。表型是基因型和3 山东科技大学硕士学位论文 绪论 4 1.环境共同作用的结果,因此有些表型对疾病的发现具有重要作用,这些表型是疾病发生和发展过程中的主要表现性状,也是判

    34、断疾病发生情况的重要指标。对于胶质瘤来说,瘤形成、髓母细胞瘤、星形细胞瘤、室管膜瘤、恶性黑色素瘤等表型属于胶质瘤的重要表型;而另外一些与胶质瘤相关的表型(如代谢异常、运动失调、心跳加速、驼背、肌萎缩等)不是胶质瘤的主要表型,是胶质瘤发生或发展时伴随出现的一些性状,通过这些表型,我们无法充分判断胶质瘤的发展情况,而且其中的有些表型也是其他疾病常见的表型。对于结肠癌来说,腹部包块、贫血、消瘦等表型属于结肠癌的重要表型;而腹胀、便秘、低热、乏力、浮肿等属于结肠癌的次要表型。癌相关基因包括癌基因和抑癌基因。其中细胞癌基因是实现细胞正常生长、分化所必需的调控蛋白的编码基因,生理情况下,其活性受严格调控,

    35、与各细胞所处环境即维持细胞社会性的需要严格适应,如果这些基因表达紊乱,持续的异常活化、高表达,超过细胞及其周围环境的需要,则可能引起细胞过剩生长,严重的不受正常调控的增生就有可能导致肿瘤发生。而抑癌基因是指对细胞生长具有负调节作用的基因,其机能丢失也可能导致肿瘤的发生。 2 本文的研究内容 本文第二部分介绍了互信息相关基因网络的建立,包括互信息相关性的介绍,正常脑组织和胶质瘤 I 期、 II 期、 III 期和 IV 期的数据来源,胶质瘤表型相关基因的选取,数据处理以及基因网络的建立。进一步,介绍两种表型相关网络的建立,以及通过比较两种方式建立的表型网络来确定基因网络阈值。最后,详细介绍了脑胶

    36、质瘤关键基因的选取方法。并将此方法应用到结肠癌,得到结肠癌的关键基因。 第三部分提出利用信息熵相关系数和模糊互信息构建基因网络的方法,并将这两种方法应用于胶质瘤研究中。最后将信息熵相关系数以及模糊互信息得到的结果分别与互信息得到的结果进行比较和分析。 最后总结本文的主要工作并指出下一步要解决的问题。 山东科技大学硕士学位论文 疾病关键基因的挖掘方法及其在脑胶质瘤和结肠癌中的应用 2 疾病关键基因的挖掘方法及其在脑胶质瘤和结肠癌中的应用 2.1 互信息相关基因网络的建立 2.1.1 互信息相关性 计算变量间的相关性,通常利用皮尔逊相关( PC)和斯皮尔曼(SP )相关。皮尔逊相关测量两变量之间的

    37、线性关系,如果两变量有强的线性关系,PC 接近于 1;如果两变量是负相关的, PC 是负的;如果不能观测到线性趋势, PC 分布在 0 附近。斯皮尔曼相关比皮尔逊相关更加稳健,它表示的是两个变量之间的等级相关(单调相关)性。显然,线性相关属于等级相关。这两种方法都是建立在概率基础上。互信息作为相关性度量的另一种方法,建立在信息熵的基础上,是从平均意义上来表征两变量间的总体信息测度。这三种方法比较来看,互信息更能全面体现两变量间的相关性。 1850 年,德国物理学家 R. Clausius 首次提出熵的概念,用来表示任何一种能量在空间中分布的均匀程度,能量分布得越均匀,熵就越大。在信息论中,熵表

    38、示不确定性的量度。信息论的创始人香农在其著作通信的数学理论中提出了建立在概率统计模型基础上的信息度量,把信息定义为“用来消除不确定性的东西”。定义如下: () ()()=xxplogxpXH1. (2.1) 设 是()YXH , X 和 Y 的联合熵,它是二元随机变量的不确定性的度量,定义为: () ()()=yxyxplogyxpYXH,1, ( 2.2) 在此基础上定义互信息为: ()( ) ( ) ( )YXHYHXHYXI ,; += ( 2.3) );( YXI 越大,表明 X 和 Y 的相关程度越大; ( ) 0; =YXI 表示 X 和 Y 相互独立。因此,在统计意义上,互信息表

    39、达了两个随机变量之间的相互依赖性,我们称之为一阶互信息。 本章在基因表达谱数据基础上,利用上述互信息相关性来鉴定相关基因组的结构。文中将一个基因在多次不同试 验中得到的样本数据称为该基因的表达谱。为了书写简便,将基因表达谱数据也用基因名来表示,例如:文中所说的基因 , A B 互信息实际上5 山东科技大学硕士学位论文 疾病关键基因的挖掘方法及其在脑胶质瘤和结肠癌中的应用 是指基因 , A B 表达谱间的互信息。 2.1.2 数据来源 本文所用的基因表达谱数据都来源于美国国立生物信息技术中心( NCBI)。为了表述方便,我们把胶质瘤 I期、 II期、 III期和 IV期样本构成的数据库统称为实验

    40、组,用于比对的正常样本数据库称为对照组。表 2.1 列出本章使用数据库的详细情况,这些数据来自两个平台 GPL570 和 GPL96 的样本库, 其中胶质瘤 III期数据由 GPL96 的两个样本库的实验样本拼凑而成。这些样本库中,除了 GDS1815 只包含 value外,其他样本库都含有value、 p_value和 P-M-A值三类数据,其中 P表示 present(表达) , A表示 absence(不表达) ,M表示 marginal(临界值) 。为了得到构建互信息相关网络需要的 p_value和 P-M-A值,我们用 expression console软件对 GDS1815 样本

    41、库中的原始 value数据进行处理, 得到相应的p_value数据。正常脑组织,胶质瘤 I期和 II期的每个样本库中都含有人类 20827 个基因(对应 54675 个探针);胶质瘤 III期和 IV期的每个样本库中都含有人类 13262 个基因(对应 22283 个探针)。将数据库中的 P值记为 1, A、 M值都记为 0。上述 5 个库(正常,胶质瘤 I期, II期, III期和 IV期)形成了本章研究的原始数据库*。 表 2.1 数据来源的详细列表 Ta 分期 数据平 样本个数 ble 2.1 Detailed list of data source台 数据库 数值类型 正常 GPL57

    42、0 G value, p -A 值DS1962 _value, P-M 23 I 期 GPL570 GSE5675 value, p_value, P-M-A 值 41 II 期 GPL570 GSE4290 value, p_value, P-M-A 值 45 III 期 GPL96 GDS1815 value 24 III 期 GPL96 GDS1975 value, p_v A 值alue, P-M- 26 IV 期 GPL96 GDS1975 value, p_value, P-M-A 值 75 胶质 的表型 来 PO an Phenotype Ontology)数据库。 HPO数据库

    43、是在瘤数据 源于 H ( HumOMIM数据库的基础上提取每个疾病的特征描述,形成特征列表。对于特征描述出现次数大于一次的描述形成 HPO的一个术语,并且对于某些描述(表达意义相同)进行了人工合并,形成一个术语。每个术语描述的 是一个表型异常,大部分 HPO 术语描述*http:/ http:/www.human-phenotype-ontology.org/index.php/hpo_browse.html 6 山东科技大学硕士学位论文 疾病关键基因的挖掘方法及其在脑胶质瘤和结肠癌中的应用 的是器官异常,有些描述的是遗传模式和发病及临床过程。这个数据库列出了基因、疾病和表型的关系。 从 HP

    44、O数据库中得到胶质瘤对应的表型共 56 个,其中某些表型描述疾病的遗传模式,2.1.3 胶质瘤表型相关基因的选取 少包含了人类全基因组的 1 万多个基因。构建与分析包库中剩余的胶质瘤相关基因的情况为:正常脑组织 27 个, I期 28 个, II期 32.1.4 数据处理 2.1.3 节工作数据库中每个库基因间的互信息相关性,需要对每个库中的比如: HP: 0000006 描述的是常染色体显性遗传。本章我们关注与疾病发展有关的表型之间的关联关系,因此删除那些与我们研究无关的表型。另外,还有一些表型没有特异性基因与之对应,这些表型往往与基因组的功能改变没有关系,也将其删除。最后得到胶质瘤关联的表

    45、型 53 个,与这些表型对应的基因 1388 个。 上述原始数据库中,每个库都至含全部基因的基因网络的时间复杂性很高。为了简化计算,我们选择下列两组基因集合的并集:( 1)目前已获取的癌基因43与从 HPO数据库中得到的 53 个胶质瘤表型对应的 1388 个基因的交集;( 2)从 HuGE Index数据库(人类基因表达索引)中找到的568 个脑 TSGs与 HPO数据库中得到的 1388 个基因的交集。最后这两组基因集合的并集包含 166 个基因。根据这 166 个基因从原始数据库中筛选出相应数据。处理后数据库中剩下的基因如果出现多个探针对应一个基因的情况,我们保留多个探针对应的表达谱中表

    46、达量最高的一个。因此,正常脑组织,胶质瘤 I期和 II期都得到 496 个基因, III期和 IV期都得到 369 个基因。在这些基因里,有些基因的表达水平在所有样本中几乎都相同。从生物学角度分析,表达水平全为 0 或 1 的数据对我们所关注的网络结构的差异性几乎没有贡献,因此,将每个库的数据表达谱中 1 所占比例小于 15%或大于 90%的基因删除。 这样, 5 个4 个, III期 44 个, IV期 43 个。上述简化后产生的基因样本数据库构成我们研究的数据库*。表 2.2 列出最后得到各个期的基因数、表型数及基因与表型间的关联数。 为了计算上述p_value 进行适当离散化,具体方法如

    47、下:( 1) 选取库中 p_value 的取值区间 最http:/ http:/www.hugeindex.org *http:/ 7 山东科技大学硕士学位论文 疾病关键基因的挖掘方法及其在脑胶质瘤和结肠癌中的应用 小值,最大值 。按照数据从小到大的顺序把区间分成 20 份,依次将这些区间标号为第 1 区间,第 2 区间, ,第 20 区间,且满足每个区间内的数据个数尽可能相等;( 2) 将每个 p_value 换成它所在区间的标号值。显然,这种离散化粒度比 0-1(或 P-A)离散化粒度精细,这两种离散化方法比较起来,前者离散化方法损失的信息较少,因此我们认为在前者离散化数据基础上建立的互信息网络更能反映生物的实际功能。 在上述离散化数据的基础上,利用 2.1.1 节中的互信息计算公式可得到每个库中所有基因之间的相关网络,即任意两个基因间都存在一个互信息值。为了突现网络结构特异性并从中获取有用的生物学信息,需要对上述全连接网络中的互信息值进行粗粒化得到阈值。为了将对照组和实验组进行比对,我们将互

    展开阅读全文
    提示  道客多多所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:疾病关键基因地挖掘方法及其应用论文.pdf
    链接地址:https://www.docduoduo.com/p-1766920.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    道客多多用户QQ群:832276834  微博官方号:道客多多官方   知乎号:道客多多

    Copyright© 2025 道客多多 docduoduo.com 网站版权所有世界地图

    经营许可证编号:粤ICP备2021046453号    营业执照商标

    1.png 2.png 3.png 4.png 5.png 6.png 7.png 8.png 9.png 10.png



    收起
    展开