1、2019/3/2,比较基因组学,中英联合实验室,2019/3/2,比较基因组学的产生,伴随着基因组的研究, 相关信息出现了爆炸性增长, 迫切需要对大量基因组数据进行处理, 比较基因组学作为一门重要的工具学科应运而生。比较基因组学是通过对系统发育中的代表性物种之间的全方位基因和基因家族的比较分析,构建系统发育的遗传图谱, 来揭示基因、基因家族的起源和功能及其在进化过程中复杂化和多样化的机制。,2019/3/2,果蝇基因组,果蝇基因组全长180mb,2/3是 euchromatin,1/3是heterochromatin;Blast Search确定有14113个转录产物(功能基因)。 Scien
2、ce, 287:2185-2195 (2000),2019/3/2,比较基因组学定义,利用不同物种基因组之间功能区域顺序上、组织结构上的同源性克隆新基因揭示基因功能阐明物种进化关系、基因组的内在结构,2019/3/2,比较基因组学的应用,揭示非编码功能序列 发现新基因 发现功能性SNP 阐述物种间的进化史 阐明人类疾病过程的分子机制,2019/3/2,比较基因组学与进化,古细菌-产甲烷球菌 与原核生物共同之处: 染色体组织与结构:环状基因组、基因的操纵子结构等 能量产生和固氮基因与有很高的同源性 与细胞分裂有关的蛋白质、20多个编码无机离子运输蛋白的ORF与细菌基因同源 调控模式类似于原核生物
3、 与真核生物共同之处: 细胞遗传信息传递,尤其是转录和翻译系统 分泌系统 说明该细菌与真核生物亲缘关系较近。,2019/3/2,比较基因组学与进化,比较基因组学提供的结果表明,在进化系统树上,古细菌与真核生物亲缘关系比原核生物更近。自养生物的三个分支,细菌、古细菌和真核生物中,细菌的分化发生较早。,2019/3/2,比较基因组学的具体应用方法和策略,序列的比对分析 确定基因组序列的进化关系 基因共线性synteny : 染色体片段的分析 物种序列的优化选择 对DNA序列的信息注释,2019/3/2,基因组成的相似性 基因共线性synteny:基因排列顺序的一致性 宏观共线性:遗传连锁图上锚定标
4、记排列次序的一致性 微观共线性:物理图上基因序列的一致排列 进化距离非常近的物种间保持很好的微观共线性 在进化过程中,基因共线性被各种因素所破坏,进化距离越远的物种之间基因共线性越差, 两个物种之间的共线性程度可以作为衡量它们之间进化距离的尺度,2019/3/2,高度保守和高度变异 X染色体极为保守,人类和猫的X染色体具有纵贯全条的共线性 在保守性较低的区段,基因进化速率快于整个基因组的平均进化速率 它们在种间基因组中很少表现共线性,甚至在同一物种的不同生态型之间这些区段也会发生较大变异 当用基因共线性程度估算物种分化年代时,应当注意避免高度保守和高度变异的区段,2019/3/2,2019/3
5、/2,破坏基因组共线性的因素 转座 插入 染色体重排 区段加倍和缺失,2019/3/2,跨物种基因克隆-图位克隆 在基因组较小的模式植物中,分离被精确定位在大基因组中的基因 避免大量重复序列的干扰,减少染色体步移的次数,2019/3/2,基因岛和基因协同进化,基因岛:区段基因密度远远高于全基因组的平均密度。sh2与A1两个基因在玉米中的距离大约是水稻或高粱中的7倍 基因岛中的基因群通常具有功能上的相关性 协同丢失和协同进化,2019/3/2,直系同源集簇,由1个共同的祖先基因衍生的1组基因,包括不同基因组中执行同一生物学功能的种间同源物,也包括同一基因组中因基因加倍产生的种内同源物(平行基因)
6、 预测新基因功能,2019/3/2,比较基因组学研究举例,原核模式生物比较基因组学 酿酒酵母基因组 人类基因组,2019/3/2,模式生物比较基因组研究特点,模式生物基因组一般都比较小,但编码基因的比例较高,重复序列和非编码序列较少,是 “压缩”的基因组。 模式生物基因组中G+ C%含量高,同时CpG岛的比例也比较高。 一些模式生物,特别在人的基因组中发现了重复( duplication)。 各种不同的物种中,大多数重要生物学功能是由相当数量的同源序列基因( Orthologous) 蛋白承担。,2019/3/2,模式生物比较基因组研究特点,同线( synteny) 连锁的同源基因在不同物种基
7、因组中有相同连锁关系。生物体的复杂性一般表现在“生物学”的复杂性,与基因组的C 值大小及基因数量未必一定呈线性关系。,2019/3/2,模式生物基因组的研究,尿殖道支原体是已知最小的基因组0.58Mb ,由此可能确定能自我复制的细胞必需的一套最少的核心基因。 流感嗜血杆菌的基因组为1.83Mb 基因组大小影响了基因数目还是基因尺度?,2019/3/2,模式生物基因组的研究,流感嗜血杆菌基因大小平均900 bp,尿殖道支原体的基因为1040bp,基因大小差不多; 流感嗜血杆菌中平均1042 bp 有1个基因,尿殖道支原体中平均1235 bp 有1个基因。 可见基因组尺度减小并不引起基因密度的增加
8、和基因尺寸的减小。 二者差别在于基因数量上,流感嗜血杆菌基因组有1743个ORF,尿殖道支原体只有470个ORF。,2019/3/2,模式生物基因组的研究,通过对尿殖道支原体与流感嗜血杆菌这两个亲缘关系较远的生物基因组的比较,选取其共同的基因(共240个),再加上一些其他基因,最后组成一套含256个基因的最小基因组。,2019/3/2,最简单的真核生物-酿酒酵母基因组,基因组为12,068 kb,比单细胞的原核生物和古细菌大一个数量级。 共有5887个ORF,比原核生物和古细菌要多很多。 酿酒酵母的基因密度为1个基因/2kb,密度小于流感嗜血杆菌和尿殖道支原体。 酿酒酵母-最小的真核基因组,裂
9、殖酵母其次(密度是1/2.3kb),简单多细胞生物线虫的基因密度为1/30kb。 酿酒酵母只有4%的编码基因有内含子,而裂殖酵母有40%编码基因有内含子。,2019/3/2,人类基因组的一个片段,2019/3/2,2019/3/2,人类染色体组型,上图显示的是经姬母萨染色后的G带模式图,染色体号在染色体结构下面标注,带号在左边。,2019/3/2,2019/3/2,人类基因组基因的三条推测依据 1. 根据已测定大片段DNA中ORF的比例; 2. CpG island的个数(56%的已知基因5都与CpG相连,而人基因组中有45000个Islands) 3. ESTs已经报道的是第22染色体和第2
10、1染色体。第21染色体全长33.65 Mb,长臂上有33.546Mb,仍有7个缺口,长约3kb,99.7%。 The DNA sequence of human chromosome 22, Nature 402, 489-495(1999) . The DNA sequence of human chromosome 21, Nature 405, 311-319(2000) . 21q上有127个已知基因,98个推测的基因59个pseudo genes。Chromosome22中有545个编码基因 第21+22染色体共占2%的人类总DNA,共有77%基因 Nature,406,151-15
11、7,2019/3/2,模式生物基因组研究对人类基因组研究的促进作用,1 利用基因序列上的同源性克隆人类疾病基因当人类cDNA 与已知功能的模式生物基因高度相关,当该表型的候选基因定位于与cDNA 相同的位置上,就有助于识别该基因。,2019/3/2,模式生物基因组研究对人类基因组研究的促进作用,2 模式生物基因组研究揭示了人类疾病基因的功能。由于某些模式生物基因的功能已知,这就对人类疾病基因的功能研究有很大的促进作用。这一跨种关系使模式生物基因的有效功能数据立刻用于研究它的高等生物的同源体。,2019/3/2,模式生物基因组研究对人类基因组研究的促进作用,3 充分利用模式生物实验系统上的优越性
12、模式生物实验上的优越性成为人类疾病状态下分子机制的阐明和基因功能分析的有效手段。以酵母为例,它就是一个很好的实验系统。,2019/3/2,以酵母为例,首先它是一个单细胞,可以在特定的培养基上生长,这样就可能完全控制其化学和物理环境。其次酵母的生命周期也很适合被用来作遗传分析,有可能构建一套16 条染色体单倍型的详尽的图谱。第三,现今的技术可以将其6000 个基因中的任何一个用突变的等位基因替代或准确地从基因组中缺失。,2019/3/2,模式生物基因组研究对人类基因组研究的促进作用,4 比较基因组作图在人类基因组研究中的应用。应用之一是使连锁信息和基因组资源从作图较为详尽的物种转移到作图不完善的物种。例如:通过定位一套在哺乳动物中进化上保守的位点,把这些保守位点作为出发点,使连锁信息从人、鼠等物种扩展到牛、猪、羊等物种,以促进基因组研究。,2019/3/2,模式生物基因组研究对人类基因组研究的促进作用,另一个应用是把比较基因组作图用于复杂性状的分析。许多遗传性状是由一个以上的基因控制的,这些基因的识别通常在老鼠中比在人中来得容易。一旦一个候选疾病基因或疾病区域被在老鼠中确认,我们就可以筛选同源基因或同源区域,看看是否与人类遗传病相对应。,