1、单 位 代 码 : 10226 学 号 : 2009156007本 科 毕 业 论 文题 目 基 因 芯 片 数 据 荟 萃 胶 质 瘤 预 后 分 析 所 在 学 院 生 物 信 息 科 学 与 技 术 学 院 专 业 生 物 技 术 学 生 姓 名 秦 远 指 导 教 师 张 绍 军 二 一 四 年 六 月哈尔滨医科大学本科毕业论文哈尔滨医科大学本科毕业论文声明本人郑重声明: 所呈交的毕业论文,是本人在指导教师的指导下进行研究工作所取得的成果,实验数据与结果真实可靠。除文中已经注明引用的内容外,本文不含任何其他个人或集体已经发表或撰写过的研究成果。对本文研究做出重要贡献的个人和集体,均已在
2、文中以明确方式标明。本声明的法律结果由本人承担。论文作者签名: 日 期: 年 月 日哈尔滨医科大学本科毕业论文版权使用授权说明本人完全了解学校关于收集、保存和使用本科毕业论文的规定,即:1、按照学校要求提交本科毕业论文的印刷本和电子版本;2、学校有权保存本科毕业论文论文的印刷本和电子版,可以将本论文的全部或部分内容编入有关数据库进行检索,并提供目录检索、借阅及查阅服务;3、学校可以采用影印、缩印、数字化或其它复制手段保存论文;4、本科毕业论文研究成果的责任作者或通讯作者为本人的指导教师,作者署名单位为哈尔滨医科大学;5、保密的论文在解密后遵守此规定。论文作者签名: 指导教师签名:日 期: 年
3、月 哈尔滨医科大学本科毕业论文目 录中文摘要 1Abstract.21、文献综述 41.1 胶质瘤 41.2 相关数据库简介 41.2.1 GEO 数据库 .41.2.2 KEGG 数据库 .51.3 临床预后简介 51.3.1 生存分析简介 61.4 目前国内外研究现状 61.5 课题研究目的及意义 62、材料与方法 82.1 实验数据 82.1.1 获得胶质瘤芯片表达数据 82.1.2 胶质瘤通路数据 82.2 实验方法 82.2.1 技术路线 82.2.2 数据预处理 92.2.3 多平台基因芯片数据整合 92.2.4 鉴定风险通路 102.2.5 生存分析 103、结 果 123.1
4、胶质瘤基因芯片整合数据 123.2 胶质瘤的 KEGG 通路图 123.3 meta 分析 .143.4 生存分析 144、讨 论 175、结 论 186、致 谢 197、参考文献 20哈尔滨医科大学本科毕业论文1中文摘要大量的基因组数据特别是微阵列数据都可以通过各种网络资源获得,例如从the Gene Expression Omnibus (GEO)中获得。现存的这些基因表达数据库的数据库接口,表达数据存储方式和临床meta数据注释等方面在格式上都存在不相容的问题,而且从不同的数据库得到的数据的注释也会有不一致的情况。这些缺陷导致寻找疾病预后基因时存在很大的困难。原发性脑肿瘤中预后效果最差的
5、就是脑胶质瘤,其预后与生物学特征、生长发生部位、手术方式等医疗手段有关,因为胶质瘤具有浸润生长的特征,对神经组织破坏较大,手术难以完全切除,绝大多数胶质瘤在手术和放化疗后复发概率仍较大。胶质瘤分为4个等级:I、II、III 、IV。低等级的胶质瘤是高度分化的,患者也往往具有比较良好的预后效果;高等级的胶质瘤则预后效果较差。基于此,利用经过整合了的胶质瘤的基因芯片表达数据作 meta 分析,这些数据都以统一的标准化来处理,并被映射到了 HGNC 的 gene symbol 上;继而利用 R 软件来进行 meta 分析;最后利用 cox 比例风险回归模型来寻找疾病预后的 biomarker。本研究
6、的一个重要的应用就是利用多个独立的研究来检验之前作为假设提出的胶质瘤的预后基因,利用 meta 分析能对同一个课题的多项研究结果的一致性进行归纳概括,对同一课题的多项研究结果作系统性评价和总结,meta 分析能够提高统计效能和效应值估计的精确度。关键词:生存分析;生物标记;meta 分析;预后;胶质瘤基因芯片数据荟萃胶质瘤预后分析2Meta-analysis and survival analysis of the gene expression of gliomaAbstractA wealth of genomic data, in particular microarray data,
7、is publicly available through diverse online resources. Major database of gene chip expression data, e.g. Array Express and the Gene Expression Omnibus (GEO).However, inconsistent formatting among database interfaces, expression data storage and clinical meta-data annotations present formidable obst
8、acles to making efficient use of these resources. The database provides machine-rather than manually annotated data, resulting in reduced consistency of annotation across studies. These defects may cause great problems when we are searching for the disease Biomarker. Glioma is a primary brain tumor
9、which has the worst prognosis of tumor, its prognosis is related with biological characteristics, growth related parts, operation mode and many other treatment measures, because of glioma with infiltrative growth characteristics, damaging the nervous system , difficult to complete excision operation
10、, the vast majority of glioma after operation and chemotherapy will probably recur . Glioma is divided into 4 grades: I, II, III, IV. Low grade gliomas are highly differentiated, sufferers often have a relatively well prognosis; high grade gliomas usually have poor prognosis. Based on that, I utiliz
11、e 7 sets of data of the expression of the glioma gene chip to do meta-analysis. And gene expression data were collected from public databases and author websites, processed in a consistent manner and mapped uniformly to official Human Gene Nomenclature Committee (HGNC) gene symbols. And then we exec
12、ute the meta analysis using R software. Finally, using Cox proportional hazards regression model to the prognosis of the disease biomarker.An important application of my research is the use of multiple independent study to test the hypothesis before as glioma prognosis of biomarker, analysis of cons
13、istency can result a number of studies on the same topic was evaluated using meta, the results 哈尔滨医科大学本科毕业论文3of several studies on the same topic for system evaluation and summary, meta analysis statistical efficiency and effect value estimation accuracy.Key words: survival analysis; biomarker; meta
14、-analysis; prognosis; glioma基因芯片数据荟萃胶质瘤预后分析41、文献综述1.1 胶质瘤胶 质 瘤 ( glioma) 是 发 生 发 展 于 神 经 外 胚 层 的 肿 瘤 , 故 又 称 神 经 上 皮 肿瘤 。 大 多 数 肿 瘤 起 源 于 不 同 类 型 的 神 经 胶 质 , 但 按 照 组 织 发 生 学 来 源 及 生 物学 特 性 的 相 似 , 对 发 生 于 神 经 外 胚 层 的 各 种 肿 瘤 , 一 般 都 称 为 神 经 胶 质 瘤 。病 因 多 是 因 为 惊 吓 或 大 怒 , 或 衰 哭 烦 闷 , 使 气 血 运 行 受 阻 ,
15、抵 抗 力 下 降 , 病邪 借 此 乘 虚 而 入 , 发 为 癌 瘤 。 症 状 主 要 有 两 方 面 的 表 现 : 一 是 颅 内 压 增 高 以及 一 些 其 它 症 状 , 如 视 力 减 退 、 复 视 、 头 痛 、 呕 吐 、 癫 痫 发 作 和 精 神 症 状 等 。另 一 是 脑 组 织 受 肿 瘤 的 压 迫 、 浸 润 、 破 坏 所 产 生 的 局 部 症 状 , 造 成 神 经 功 能缺 失 。1.2 相关数据库简介1.2.1 GEO 数据库GEO ( Gene Expression Omnibus) 数 据 库 NCBI( National Center fo
16、r Biotechnology Information) 旗 下 的 旨 在 支 持 基 因 表 达 数 据 公 共 使 用 和 散 布 来自 microarray, 杂 交 膜 ( hybridization membrane ) , 高 密 度 的 寡 核 苷 酸 微 阵 列( HAD) 以 及 SAGE 等 很 多 其 它 类 型 的 基 因 表 达 数 据 都 被 纳 入 , 登 记 和 存 档 。GEO 数 据 库 是 高 通 量 的 基 因 表 达 数 据 库 , 数 据 库 里 面 包 含 高 通 量 实 验 数 据 的各 种 分 类 , 有 以 单 ,双 通 道 微 阵 列 为
17、 基 础 , 对 mRNA 丰 度 的 进 行 测 定 ; 蛋 白质 分 子 和 基 因 组 DNA 的 实 验 数 据 , 迄 今 为 止 , GEO 数 据 库 包 括 的 数 据 已 经涵 盖 了 10000 个 来 自 杂 交 实 验 以 及 30 多 种 不 同 生 物 个 体 的 SAGE 库 。GEO 数 据 库 包 含 四 个 基 本 实 体 : 提 交 者 ( submitter) , 平 台 ( platform) ,系 列 ( series) 和 样 本 ( sample) , 这 四 个 实 体 都 可 以 保 存 到 独 立 的 相 关 数 据哈尔滨医科大学本科毕业论
18、文5库 中 , 获 得 号 前 三 个 字 母 分 别 为 “GPL”GSM”GSE”。 这 三 个 都 是 靠 提 交 者维 护 的 ; 另 外 GEO 数 据 库 尚 有 一 个 作 为 辅 助 的 数 据 分 析 工 具 , 他 能 够 把 提交 者 所 提 交 的 样 本 综 合 整 理 到 GEO 数 据 集 组 ( GEO DataSets, 缩 写 为 GDS) ,GDS 数 据 是 由 GEO 自 身 维 护 的 , GDS 数 据 比 GSE 数 据 更 标 准 , 并 且 数 据 具有 生 物 学 意 义 且 在 统 计 学 上 能 够 相 互 比 较 。1.2.2 KEG
19、G 数据库KEGG( Kyoto Encyclopedia of Genes and Genomes) 是 一 个 人 工 收 集的 关 于 基 因 组 ( genomes) 、 生 物 通 路 ( biological pathways) 、 疾 病( diseases) 、 药 物 ( drugs) 和 化 学 物 质 ( chemical substance) 的 数 据 库 。 KEGG 一 般 用 于 生 物 信 息 学 研 究 和 教 育 用 途 。 KEGG 项 目 启 动 于 2005 年 ,当 时 在 人 类 基 因 组 计 划 中 工 作 的 日 本 京 都 大 学 化 工
20、 研 究 所 ( Institute for Chemical Research, Kyoto University) 的 Minoru Kanehisa 教 授 意 识 到 现 在需 要 一 种 能 够 帮 助 人 类 解 释 基 因 组 序 列 数 据 的 计 算 机 资 源 , 于 是 他 就 开 始 和设 计 了 KEGG 通 路 数 据 库 , 当 时 的 KEGG 还 只 能 够 为 细 胞 和 生 物 体 的 代 谢绘 制 包 含 分 子 互 作 和 分 子 之 间 的 化 学 反 应 的 通 路 图 , 设 计 的 初 衷 是 将 一 个 通路 内 的 基 因 和 基 因 产
21、物 ( 主 要 是 蛋 白 质 ) 连 接 起 来 。 但 是 却 直 接 产 生 了 一 种叫 做 KEGG pathway mapping 的 分 析 , 这 类 分 析 通 过 对 比 基 因 的 序 列 与 KEGG PATHWAY 数 据 库 做 比 较 来 注 释 该 段 序 列 的 功 用 。 用 KEGG 数 据 库的 开 发 者 来 说 “ KEGG 是 计 算 机 化 的 生 物 系 统 ”, 它 能 将 图 和 块 一 起 来 构 成一 个 生 物 系 统 。 具 体 的 说 遗 传 学 上 的 块 是 基 因 和 蛋 白 质 , 化 学 的 块 是 小 分 子 ,至 于
22、 图 则 是 这 些 块 之 间 的 互 作 形 成 的 网 络 。 这 种 观 念 直 到 现 在 也 在 影 响 KEGG 所 有 的 数 据 库 : 系 统 、 基 因 组 、 化 学 和 健 康 信 息 。1.3 临床预后简介预后是指凭据经验预测出疾病的可能病程和最终结局。它既包含判断疾病的某种特定结果(例如病愈,复发以及死亡等) ,也包含了时间因素(例如预测基因芯片数据荟萃胶质瘤预后分析6特定时间内的出现某种结局的可能性的大小等) 。1.3.1 生存分析简介生存分析是将事件的结果以及出现该结果所要经历的时间联合起来分析的一种统计分析方法。由于生存分析方法可以分析包括截尾数据的事件,因
23、此更充分的利用了信息。Cox 比例风险回归分析是生存分析中的一种半参数分析方法,同时也是一种多因素分析方法,它可以同时分析多个独立因素对生存时间的影响。1.4 目前国内外研究现状利用常规的治疗方法来治疗恶性胶质瘤的效果还比较差,而近几年在胶质瘤的基因治疗方面研究获得了一定进展,当今胶质瘤基因治疗的分子手段主要包含调节细胞周期法 1、自杀基因疗法 2、免疫基因疗法、抗血管生成的治疗法、PKR 途径等,基因转运体系包含逆转录病毒 3、腺病毒、腺相关病毒等病毒载体,对病毒的改造则主要是通过增加载体的靶向性和可控性 4,此外还有一种新型载体是溶瘤病毒和非病毒载体 5,而目前治疗效果最好的是结合基因治疗
24、与传统化疗、放疗。随着基因组测序数据的快速增长,产生了大量的生物数据,同时这些数据也隐藏了很多的生物学知识,利用生物信息学可以对这些数据进行分析,处理等,可以挖开这些生物数据的内涵,进而指导临床对胶质瘤的治疗,预后。1.5 课题研究目的及意义随 着 大 量 的 高 通 量 表 达 数 据 的 迅 猛 发 展 , 出 现 了 越 来 越 多 的 基 因 表 达 数据 库 , 我 们 应 该 充 分 利 用 这 些 数 据 来 挖 掘 出 隐 藏 在 里 面 的 信 息 。 我 查 阅 了 大量 的 文 献 并 在 GEO 和 ArrayExpress 上 下 载 了 大 量 的 数 据 , 剔
25、除 不 符 合 研 究 条件 的 数 据 , 共 保 留 了 7 套 胶 质 瘤 的 芯 片 数 据 6。 通 过 利 用 meta 分 析 来 对 这 些哈尔滨医科大学本科毕业论文7独 立 研 究 的 结 果 进 行 汇 总 综 合 , 并 把 基 因 芯 片 表 达 数 据 同 生 物 通 路 结 合 起 来 ,来 查 找 胶 质 瘤 的 风 险 通 路 , 并 使 用 单 变 量 的 Cox 比 例 风 险 回 归 分 析 根 据 胶 质瘤 病 人 的 生 存 信 息 来 寻 找 胶 质 瘤 的 预 后 基 因 , 进 而 提 高 预 后 准 确 率 , 可 以 为临 床 上 提 供 一
26、 个 指 导 意 见 , 辅 助 胶 质 瘤 临 床 诊 断 与 治 疗 。基因芯片数据荟萃胶质瘤预后分析82、材料与方法2.1 实验数据2.1.1 获得胶质瘤芯片表达数据本 课 题 以 胶 质 瘤 为 研 究 对 象 。 检 索 时 间 截 至 2013 年 11 月 。 数 据 主 要 来自 于 基 因 表 达 公 共 数 据 库 : GEO。 检 索 策 略 是 在 PubMed 和 GEO 等 数 据 库检 索 符 合 纳 入 标 准 的 相 关 研 究 文 献 和 数 据 , 所 用 的 关 键 词 是 “glioma”AND“microarray”“survival”, 并 经 过
27、 手 工 检 索 , 剔 除 了 不 包 含 生 存 时 间 的 数据 , 以 及 没 有 截 尾 状 态 的 数 据 经 删 选 后 一 共 保 留 了 7 套 数 据 , GSE 编 号 分 别是 GSE427-GPL967, GSE4271-GPL978, GSE4412-GPL969, GSE4412-GPL9710,GSE4311411, GSE4311512, GSE4311613, GSE4335314, GSE43388-GPL57015和GSE43388-GPL1495116; 每 一 套 数 据 里 面 都 包 含 生 存 时 间 。 样 本 量 足 够 大 可以 使 实
28、验 结 果 更 具 有 统 计 学 意 义 。2.1.2 胶质瘤通路数据从 KEGG( Kyoto Encyclopedia of Genes and Genomes) 数 据 库 可 以 查 看到 胶 质 母 细 胞 瘤 ( glioma) 的 通 路 信 息 , 检 索 时 输 入 glioma 和 survival, 可以 看 到 我 们 想 要 的 最 符 合 我 们 要 求 的 一 个 通 路 map05214。 为 了 获 得 通 路 上的 基 因 , 使 用 了 一 个 名 为 org.Hs.eg.db17的 R 包 , 使 用 org.Hs.eg.db 这 个 R 包可 以 提
29、 取 出 map05214 这 个 通 路 上 的 基 因 。2.2 实验方法2.2.1 技术路线我 们 采 用 筛 选 出 来 的 7 套 芯 片 数 据 进 行 数 据 预 处 理 , 并 利 用 GEO 数 据库 找 到 了 芯 片 数 据 上 探 针 ID 对 应 的 基 因 SYMBOL, 进 而 得 到 基 因 和 样 本 的哈尔滨医科大学本科毕业论文9对 应 关 系 。 然 后 利 用 编 写 的 R 程 序 取 这 7 套 芯 片 数 据 中 共 有 的 基 因SYMBOL, 一 共 提 取 出 4275 个 共 有 基 因 。 最 终 得 到 的 7 个 文 件 , 其 中
30、每 个文 件 的 每 一 行 是 一 个 基 因 , 每 一 列 是 一 个 样 本 , 矩 阵 数 值 表 示 该 基 因 在 该 样本 中 的 表 达 值 ; 然 后 提 取 出 表 达 数 据 中 的 生 存 时 间 ( survival time) 的 数 据 和截 尾 状 态 ( censor status) 的 数 据 , 进 而 利 用 生 存 分 析 方 法 中 的 半 参 数 方 法cox 比 例 风 险 回 归 分 析 来 对 生 存 数 据 和 表 达 数 据 做 生 存 分 析 , 此 步 分 别 做 了 全套 数 据 的 生 存 分 析 和 样 本 量 充 分 的 单
31、 套 数 据 的 生 存 分 析 。2.2.2 数据预处理下 载 的 基 因 芯 片 表 达 数 据 里 面 行 是 探 针 ID, 列 是 样 本 的 GSM 编 号 , 我们 要 根 据 GEO 数 据 库 里 面 的 平 台 注 释 信 息 将 探 针 ID 对 应 的 gene symbol 找到 , 并 进 而 得 到 行 是 gene symbol, 列 是 样 本 GSM 编 号 的 文 件 。 发 现 文 件 里的 表 达 值 差 别 很 大 , 小 的 数 值 是 几 十 , 大 的 达 到 了 上 万 , 所 以 又 对 数 据 取 了以 2 为 底 的 对 数 转 换 ,
32、 转 换 后 发 现 表 达 值 没 有 那 么 大 的 差 别 了 , 但 是 发 现 有重 复 探 针 集 并 进 而 按 照 取 平 均 值 进 行 合 并 。2.2.3 多平台基因芯片数据整合 要 做 meta 分 析 , 首 先 我 们 做 的 是 胶 质 瘤 的 生 存 时 间 的 meta 分 析 , R 里面 有 一 个 R 包 可 以 完 成 这 个 工 作 , 这 个 R 包 就 是 RankProd。 RankProd 这 个R 包 可 以 做 Affymetrix 芯 片 和 cDNA 芯 片 的 差 异 表 达 基 因 的 鉴 别 ; 此 外 这 个包 里 一 个 高
33、 级 用 处 就 是 可 以 用 来 检 验 经 过 药 物 治 疗 后 上 调 和 下 调 表 达 的 基 因 。RankProd 这 个 R 包 吸 引 人 的 一 点 就 是 他 可 以 把 从 不 同 来 源 获 得 到 的 数 据 集 整合 到 一 个 分 析 中 去 , 这 样 可 以 提 高 统 计 检 验 的 效 能 ( power) , 这 一 点 正 是 符合 meta 分 析 的 思 想 。 首 先 安 装 RankProd 这 个 包 , 在 R 中 分 别 输 入source(“http:/bioconductor.org/biocLite.R“和 biocLite(
34、“RankProd“); 然 后 加 载RankProd 包 library(RankProd),这样就可以使用 RankProd 这个包里的函数了。我的数据是一个类别(One class data)的数据,建立一个长度为 n 的向量,这里的 n 代基因芯片数据荟萃胶质瘤预后分析10表的是样本的个数,由于数据是一个类别的所以向量里面存放的是 n 个 1;而且数据是来自不同的实验的也就是多个来源(Multiple origins)的,建立一个 origin 向量,向量里面的元素值是从 1 取到 L,其中 L 是数据来源的数目,由于我们的是 7 套数据,所以这里 L 等于 7。利用 RankPro
35、d 这个包对胶质瘤数据做 meta 分析时,主要用到了2 个函数 RPadvance()和 topGene() 。2.2.4 鉴定风险通路通过 KEGG 数据库输入关键词 glioma 和 survival 得到符合要求的 map05214这个通路,通过 R 里面的 org.Hs.eg.db 这 个 包 提 取 出 通 路 上 的 基 因 和 meta 分析 分 析 出 来 的 上 下 调 基 因 , 我 们 可 以 找 到 风 险 通 路 , 可 以 进 一 步 cox 比 例 风险 回 归 分 析 。2.2.5 生存分析为了从我提取到的 4275 个基因中挖掘预后基因,我们采用了 cox
36、比例风险回归模型 18。每个基因作为一个协变量,每个样本的生存时间作为因变量,所以一共有 4275 个协变量。对所有协变量做 4275 元的 cox 比例风险回归分析,每个协变量得到一个概率值,这个概率值表示该协变量对样本生存时间的影响是否显著,取阈值为 0.0001(如果阈值取 0.01 或 0.001 则挖掘出来的预后基因过多,没有起到很好的筛选作用) ,其值小于该阈值的被认为是预后基因,大于该阈值的被认为是对生存时间的影响是统计学不显著的。为了对每个样本给予一个打分值,该分值代表该样本的风险值或风险得分(risk score) ,构建一个预后模型,利用该模型对筛选出来的预后基因的表达进行
37、加权求和,并将求出来的结果作为每个样本的风险得分,风险得分值则是通过 cox 比例风险回归分析得到的(对上一步筛选出来的预后基因做 cox 比例风险回归分析可以得到回归系数,利用回归系数对表达值来加权)获取每个样本的风险得分值(risk score)之后,欲进行生存分析还需将之前得到的样本的连续的样本风险得分离散化(这里根据样本风险得分的大小进哈尔滨医科大学本科毕业论文11行了二分类化) 。综合考虑设定一个得分阈值,大于该阈值的样本类别记为高风险得分样本(high risk score) ,而小于该阈值的样本类别记为低风险得分样本(low risk score)为了确定这个阈值,我们采用时间依
38、赖的受试者工作特征曲线(time-dependent receiver operating characteristic(ROC)curve ) 19来得到样本类别最适的二分类阈值,可以通过 survivalROC 这个 R 软件包来进行此步骤。并进而可以利用乘积极限法来估计存活率,使用 Kaplan-Meier 来估计和绘制生存曲线,利用 log rank 检验来比较多组生存曲线的差别。生存分析这一步共利用不同的数据做了两次生存分析:第一次是整套数据的生存分析;第二次是第一套大样本数据(合并表 1 中 GSE4271 的两个不同平台的样本)做生存分析。基因芯片数据荟萃胶质瘤预后分析123、结
39、 果3.1 胶质瘤基因芯片整合数据主要通过 GEO 这个数据库获得胶质瘤芯片数据和生存数据,检索日期截止 2013 年 11 月,经过手动的筛选排除了不符合要求的数据一共得到了7 套胶质瘤生存时间的数据,表 1表 1.已获得带有生存数据的数据集列表TABLE 1Picked data sets have survival data、Data set Platform SamplesGSE4271.GPL96 HG-U133A 100GSE4271.GPL97 HG-U133B 100GSE4412.GPL96 HG-U133A 85GSE4412.GPL97 HG-U133B 85GSE431
40、14 HG-U133_Plus_2 6GSE43115 HG-U133_Plus_2 7GSE43116 HG-U133_Plus_2 2GSE43353 Illumina 2GSE43388.GPL570 HG-U133_Plus_2 15GSE43388.GPL14951 Illumina 23.2 胶质瘤的 KEGG 通路图在 KEGG 数据库的 KEGG PATHWAY 中得到可以得到胶质瘤相关基因的通路,图 1哈尔滨医科大学本科毕业论文13图 1 胶质瘤的 KEGG 通路Figure 1 The KEGG pathway of glioma表 2 通路上的基因TABLE 2 The
41、genes in the pathway基因芯片数据荟萃胶质瘤预后分析14表 2 中列出来的是利用 org.Hs.eg.db 这 个 R 包 从 KEGG PATHWAY 这 个 数 据库 的 map05214 通 路 上 提 取 出 来 的 基 因 的 Entrez ID3.3 meta 分析利用 R 里面的 RankProd20包对之前获得的关于胶质母细胞瘤芯片表达数据通过 meta 分析进行整合,共获得 4275 个基因,如图 2 图 2 整合的基因(图中只是一部分)Figure 2 Integrated genes(partly not all)通过编写 R 程序整合了多套表达数据里的
42、基因,增加结果的可信度,使结果更具说服力。3.4 生存分析将从 GEO 获得 7 套胶质瘤相关的 4275 个基因合并到一起通过 cox 比例风险哈尔滨医科大学本科毕业论文15回归分析(p0.0001)得到了 70 个基因作为预后基因,利用这 70 个预后基因做多元 cox 比例风险回归分析可以得到每个基因的权值,通过权值和基因在样本中的表达值可以得到每个样本的风险得分。利用 survivalROC 这个包里面的生存时间依赖的受试者工作特征曲线分析来得到最佳的二分类阈值(optimal cutoff) 。我的 optimal cutoff=3.35,大于该阈值的记为高风险得分样本,小于该阈值的
43、记为低风险得分样本。这样,358 个样本就分为 125 个低风险得分的样本和 233 个高风险得分样本。进行 log-rank 检验得到的 p 值 1.91e-10,说明两组曲线差异非常显著,结果具有统计学意义,图 2:图 3 整套样本的生存曲线Figure 3 survival curves of all sets samples基因芯片数据荟萃胶质瘤预后分析16接下来为了证明利用整套数据做的生存分析的效果,我们又单独做了GSE4271 数据的生存分析曲线,见图 4:图 4 GSE4271 样本的生存曲线Figure 4 survival curve of GSE4271图 4 是通过整合
44、GSE4271 的两个不同平台的数据得出来的生存曲线图,由图中可以看到 GSE4271 两个不同平台的数据整合后低风险样本有 104 个,高风险样本有 50 个,低风险样本的平均生存时间显著的高于高风险样本的生存时间。哈尔滨医科大学本科毕业论文17基因芯片数据荟萃胶质瘤预后分析184、讨 论本 研 究 中 , 我 们 从 GEO 数 据 库 获 得 的 4275 个 基 因 经 过 cox 比 例 风 险 回归 分 析 后 筛 选 出 了 70 个 预 后 基 因 。 由 4275 个 基 因 降 到 70 个 预 后 基 因 , 不仅 降 低 了 研 究 的 复 杂 程 度 而 且 也 保
45、留 了 大 部 分 的 重 要 的 信 息 。 随 着 大 量 的 高通 量 表 达 数 据 的 迅 猛 发 展 , 出 现 了 越 来 越 多 的 基 因 表 达 数 据 库 , 我 们 应 该 充分 利 用 这 些 数 据 来 挖 掘 出 隐 藏 在 里 面 的 信 息 。 近 年 来 对 meta 分 析 的 研 究 越来 越 多 , 其 结 果 也 并 不 统 一 , 我 们 应 充 分 利 用 这 些 不 同 研 究 的 结 果 , 并 结 合到 一 起 来 做 充 分 的 全 面 的 分 析 , 可 以 提 高 统 计 学 上 的 功 效 ( power) 。 利 用cox 比 例
46、 风 险 回 归 分 析 可 以 得 到 将 样 本 二 分 类 化 后 得 到 的 高 风 险 样 本 和 低 风险 样 本 生 存 时 间 差 异 的 显 著 程 度 。原发性脑肿瘤中预后最差的是脑胶质瘤,亦是最常见的以及恶性程度最高的原发性脑肿瘤,其预后与胶质瘤生物学特性、肿瘤生长部位、病人手术方式等治疗措施有关,由于胶质瘤的浸润生长的特点,其对神经系统破坏性较大,目前手术难以完全切除,绝大多数胶质瘤经过手术和放化疗治疗后复发概率仍然比较大。胶质瘤分为 4 个等级:I、II 、III 、IV。低等级的胶质瘤是高度分化的,患者也往往具有比较良好的预后效果;高等级的胶质瘤则预后效果较差。影响
47、预后的因素有:患者年龄,肿瘤切除程度,病人的病理等级,放射性治疗的剂量等有关,应从这些方面入手。目前已有研究表明胶质瘤患者术后放射治疗可以改善局部复发,但是效果也不是很好,未来应该有更多的研究使对高等级的胶质瘤的预后效果达到满意的程度。随 着 基 因 组 测 序 数 据 的 快 速 增 长 , 产 生 了 大 量 的 生 物 数 据 , 同 时 这 些 数据 也 隐 藏 了 很 多 的 生 物 学 知 识 , 利 用 生 物 信 息 学 可 以 对 这 些 数 据 进 行 分 析 ,处 理 等 , 可 以 挖 开 这 些 生 物 数 据 的 内 涵 , 进 而 指 导 临 床 对 胶 质 瘤
48、的 治 疗 , 预后 , 已 达 到 延 长 病 人 生 存 时 间 的 目 的 。哈尔滨医科大学本科毕业论文195、结 论现存的这些基因表达数据库的数据库接口,表达数据存储方式和临床meta数据注释等方面在格式上都存在不相容的问题,而且从不同的数据库得到的数据的注释也会有不一致的情况。这些缺陷导致寻找疾病的预后基因时存在很大的困难。利用 meta 分析对多个不同实验的独立研究的结果进行归纳综合,可以增加样本量并提高结果的统计学意义使之更加让人信服;在 KEGG 数据库上找到了胶质瘤相关的风险通路,可以观察出表达上下调的基因,表达上下调的基因很有可能会作为预后基因来对胶质瘤病人进行预后;利用单
49、变量的 Cox 比例风险回归分析模型可以分析多种因素对生存时间的影响并寻找胶质瘤的预后基因。胶质瘤准确的发病原因尚不明确,可能与亲子遗传,人们的生活环境以及人体免疫功能的失调,原癌基因被激活,抑癌基因被抑制等等一些因素有关系同时也是多个基因参与其中的复杂疾病。影响脑胶质瘤预后的因素有很多,如病人的年龄,胶质瘤的病理等级,胶质瘤肿瘤部位手术切除程度以及范围等。目前,脑胶质瘤的临床治疗大多是采用手术,放疗和化疗的联合治疗的手段,但是手术仍是其中最为关键的方法也是最主要的影响病人存活率的因素,化疗的方案目前也较多,不同的放化疗治疗方案也会产生不同的预后效果,选择何种放化疗手段也是未来需要科研人员进一步研究的。胶质瘤的病理分级与预后也有关系,胶质瘤等级越低,预后效果越好,反之亦然。我们的研究结果