1、分子生物学,2,第三章 基因与基因组,3.1 染色体(Chromosome)概述 3.2 真核细胞染色体组成 3.3 原核生物基因组,3,3.1 染色体(Chromosome)概述,人染色体的电镜照片,4,3.1 染色体(Chromosome)概述,染色体是遗传物质DNA的主要载体,位于真核细胞核的核仁内,是极细微的线性构造,因为它控制了生命遗传,所以又被称为“生命之线”。,5,染色体(Chromosome)概述,细菌染色体其外裹着稀疏的蛋白质,其中的一部分与DNA折叠有关,另一些则参与DNA复制、重组及转录过程。 真核细胞染色体DNA与蛋白质完全融合在一起,其蛋白质与相应DNA的含量比约为2
2、:1。这些蛋白质包括组蛋白、非组蛋白,在染色体的结构中起着重要作用。这样,DNA、组蛋白、非组蛋白及部分RNA组成了染色体,6,3.2 真核细胞染色体组成,3.2.1 蛋白质(组蛋白和非组蛋白) 3.2.2 真核生物基因组 DNA C值(Cvalue) C值反常现象(Cvalue paradox) 序列组成 3.2.3 染色质与核小体 3.2.4 真核生物基因组特点,7,3.2.1 蛋白质- 组蛋白,进化上极端保守性保守程度:H1 H2A、H2B H3、H4 无组织特异性 肽链氨基酸分布的不对称性 组蛋白的可修饰性甲基化、乙基化、磷酸化、ADP核糖基化 富含赖氨酸的组蛋白H5,8,这些修饰在染
3、色质结构和基因表达中具有重要作用。 组蛋白H1大部分被磷酸化的时相特征使人们推测组蛋白 H1的磷酸化可能涉及有丝分裂过程中的染色质浓缩。 乙酰化可能与核小体的装配有关。,9,3.2.1 蛋白质- 非组蛋白,高速泳动蛋白(HMG)与DNA结合并不牢固,可能与DNA的超螺旋结构有关 DNA结合蛋白与DNA结合牢固可能是一些与DNA的复制或转录有关的酶或调节物质 A24非组蛋白,10,3.2.2 真核生物基因组DNA,C值(Cvalue)C值反常现象(Cvalue paradox)序列组成 不重复,中度重复、高度重复,11,C值,C值:是一种生物的单倍体基因组DNA的总量。 每种生物各有其特定的C值
4、;不同物种的C值之间有很大差别; 能营独立生活的最小的生物支原体(Mycoplasma)的C值不到106bp;一些显花植物和两栖类动物的C值则可多达1011bp,相差10万倍。,12,C值同生物的进化有什么关系?,生物的C值,即基因组的DNA总量是不是随着生物的进化而相应地增加?,13,一方面:在一些低等生物中,随着生物进化,增加了生物体的结构和功能的复杂性,基因组也相应地增大即C值。如蠕虫的C值大于霉菌、藻类、真菌、细菌和支原体。 另一方面:随着进一步的进化,在其他生物中则看不到这种规律。,14,显花植物和两栖类动物的基因组最大。两栖类动物,C值小的109bp,大的1011bp。软骨鱼、硬骨
5、鱼甚至昆虫和软体动物的基因组都大于包括人类在内的哺乳动物的基因组。爬行类和棘皮动物的基因组大小同哺乳动物几乎相等。,15,C值反常现象(Cvalue paradox),从总体上说,生物基因组的大小同生物在进化上所处的地位及复杂性之间无严格的对应关系,这种现象称为C值反常现象(Cvalue paradox)。,16,使人们意识到真核生物基因组中必然存在大量的不编码基因产物的DNA序列。内含子重复序列,17,真核生物基因具有内含子和外显子,外显子仅是组成基因长度总长度的一小部分,因此基因比蛋白质编码需要的序列大得多 真核生物基因组中含有大量的重复序列。,18,19,生物体越复杂,基因组内基因的密度
6、越小,每个基因包含的内含子数目也就越多,重复序列的比例也在大大提高,说明不编码基因产物的DNA序列也在大大增多。,20,非重复DNA含量和生物的相对复杂程度是一致的,21,真核生物基因组包含非重复DNA和重复DNA,不重复序列 中度重复序列 高度重复序列,22,不重复序列,在单倍体基因组里,这些序列一般只有一个或几个拷贝,它占DNA总量的40-80%。实际上,结构基因基本上属于不重复序列,如卵清蛋白、血红蛋白、珠蛋白、丝心蛋白都是单拷贝基因。,23,中度重复序列,长约300bp,重复次数在10-104,占DNA总量的10-40%。串联重复序列(tandem repetitive sequenc
7、e),占少数;散在重复序列(dispersed repetitive sequence)。大多数。,24,串联重复序列(tandem repetitive sequence),串联重复序列:许多个重复单位按照串联形式排列在一起,包括小卫星DNA(minisatellite DNA)、微卫星DNA(microsatellite DNA)、核糖体DNA(rDNA),组蛋白 等,25,串联重复序列(tandem repetitive sequence),小卫星序列(minisatellite)由15-400bp的基本单位串联重复而成,长度一般不超过20kb。在基因组中拷贝数从10-10000不等,通
8、常为100-5000,主要分布在染色体的近端粒处,有时又称数目可变串联重复(variable number of tandem repeats, VNTR)。 VNTR 是由于相同的重复顺序在不同个体基因组中的重复次数不同所导致的,这决定了小卫星DNA长度的多态性。,26,27,串联重复序列(tandem repetitive sequence),想象一下,如果将上述情况扩大1000倍,各个序列基因座差异的结果是,每一个个体都能形成其独特的带型,这样便可以清楚无误地检测亲代与子代间的遗传关系,即子代个体有50%的条带来自特定的亲本一方,这就是DNA指纹分析技术(DNA fingerprinti
9、ng)的基础。,28,串联重复序列(tandem repetitive sequence),微卫星(microsatellite)或短串联重复(simple tandem repeats, STR),或简单重复序列(simple sequence repeats, SSR),重复单元1-4bp,通常重复10-60次,总长度小于150bp, 可分布在整个基因组的不同位置上。 由于等位基因间重复次数不同导致其在动植物中具有很高的多态性。,29,串联重复序列(tandem repetitive sequence),核糖体DNA:非洲爪蟾28S,5.8S,18S rRNA基因是连在一起的,它们中间隔着
10、不转录的间隔区,这些28S,5.8S,18S rRNA 基因及间隔区组成的单位在DNA链上串联重复5000次。这些基因位于染色体的核仁组织者区。,30,串联重复序列(tandem repetitive sequence),31,串联重复序列(tandem repetitive sequence),32,串联重复序列(tandem repetitive sequence),33,串联重复序列(tandem repetitive sequence),在细菌中,这些rRNA基因对是散在的,而在大多数真核生物中,rRNA基因是以串联的一个或多个基因簇的形式存在于核仁中,这些序列有时也称为rDNA.,3
11、4,串联重复序列(tandem repetitive sequence),海胆组蛋白基因家族:编码不同组蛋白的基因处于一个约为6000bp的片段中,分别被间隔序列所隔开。这5个基因组成的串联单位在整个海胆基因组中可能重复多达1000次。,35,散在重复序列(dispersed repetitive sequence),SINE (short interspersed nuclear elements, SINE) : 长度500bp以下,在人基因组中的重复次数达10万以上。Alu 序列家族是SINE典型代表,长度约300bp。由于每个单位长度中有一个限制性内切酶识别位点(Alu I),因此命名
12、为Alu 序列。Alu 序列家族是哺乳动物包括人基因组中含量最丰富的一种中度重复顺序家族。,36,Alu 序列家族广泛散布可能性,RNA聚合酶转录成RNA,再反转录成cDNA,然后重新随机插入基因组导致Alu 序列大量产生; Alu 序列结构类似转座子,因此推测Alu 序列可能具有跳跃性,可以在基因组内移动位置,从而导致Alu 序列散布于整个基因组中。,37,散在重复序列(dispersed repetitive sequence),Line (long interspersed nuclear elements, LINE) : 重复长度大于1000bp,在基因组 中约20000-25000
13、个拷贝。,38,高度重复序列:,高度重复序列:拷贝数大于106。重复序列长度6-200 bp。大部分位于异染色质区,特别是在着丝粒和端粒附近。在基因组中占10-60%。大多数高等真核生物DNA都有20%高度重复序列。,39,卫星DNA :在某些情况下,重复序列的碱基组成与基因组的平均组成有较大的差别,所以由于其浮力密度不同,这些序列能够形成独立的条带。这样的条带称为卫星DNA(satellite DNA) 浮力密度由G-C含量决定。= 1.660+0.00098 (%G-C) g/cm-3当序列之间G-C含量差异超过5%时,就能够用密度梯度离心分离出来。,40,当基因组DNA切断成数百个碱基对
14、的片段进行氯化铯密度梯度离心,其浮力密度曲线是覆盖一定浮力密度范围的一个宽带。但是有些DNA片段都含有异常高或低的GC含量,常在主要DNA带的前面或后面有一个次要的DNA带相伴随,这些小的区带就像卫星一样围绕着DNA主带,故称卫星DNA。,41,通常基因组中的绝大部分高度重复DNA都能以卫星DNA形式分离出来。,42,卫星DNA在染色体上的位置可以用放射性标记探针做DNA分子原位杂交(in situ hybridization)来鉴定。 卫星DNA分步于着丝粒附近的异染色质区。由于异染色质区是高度螺旋化的,DNA是不表达的。 卫星DNA在着丝粒处的集中分布可能与细胞分裂时染色体的运动有关。,4
15、3,44,3.2.3 染色质和核小体,一个细胞核直径仅5m,在这样一个小小的空间中却要纳下全长近200cm的DNA,人们不禁要问DNA如何形成染色体,纳入小小的核中。解决这个问题同样是由很多科学家差不多经过20年的努力,最终提出了为大多数能接受的模型-折叠纤维模型(floded fiber model)核小体-螺线管-超螺线管-染色体,45,核小体,DNA和组蛋白组成的染色质纤维细丝是由许多核小体(nucleosome)连成的念珠状结构,大量实验证实了这一结构模型:,46,染色质DNA的Tm值比自由DNA高说明在染色质中DNA极有可能与蛋白质分子相互作用; 在染色质状态下,由DNA聚合酶和RN
16、A聚合酶催化的DNA复制和转录活性低于自由DNA中的反应。 DNA酶对染色质DNA的消化远远慢于对纯DNA的作用; 染色质的电子显微镜图染色质电子显微镜图显示念珠状结构,可以看到由一条细丝连接着一连串直径为10nm的球状体。,47,融解温度(Melting temperature Tm )DNA双螺旋结构失去一半时的温度称为溶解温度。,48,可以看到由一条细丝连接着一连串直径为10nm的球状体。,49,M.Noll(1974年)用外源核酸酶处理染色质,然后进行电泳,得到一系列片段,长度分别为200,400,600bp等,每个片段相差200bp,即染色质可能以200bp为一个单位。,电泳的结果和
17、电镜观察到“绳珠”结构之间是什么样的关系呢?Kornberg和Thomas 1974年用实验回答了这一问题。他们先用小球菌核酸酶稍稍消化一下染色质,在部分200bpDNA单位之间切开,使其中含有单体、二聚体、三聚体和四聚体等。然后经离心将它们分开。每一组再通过凝胶电泳证明其分子大小及纯度。然后分别用电镜来观察各组的材料;结果单体均为一个100A0的小体,二聚体则是两个相连的小体,同样三聚体和四聚体分别由三个小体和四个小体组成,表明200核苷酸的电泳片段长度级差正好是电镜观察到的一个:“绳珠”单位, 他们称其为核小体或者核粒, 提出了染色质结构的“绳珠”模型。,51,核小体单位(绳珠):包括20
18、0bp左右的DNA和一个组蛋白八聚体以及一个分子的组蛋白H1.每200bpDNA,有H2A,H2B,H3,H4各两个,及H1一个。直径11mn。被压缩了6-7倍,52,对于某种特定类型的细胞来说,其核小体都有一个特征性的平均值(5bp),最常见的平均值为180-200bp,但在一些极端情况下,可以低至154bp(在一种真菌中)或高至260bp(在一种海胆的精子中)。在成体器官的不同组织之间、单个细胞基因组的不同部分之间,其平均值都可能不同。,53,在不同来源,不同DNA长度的核小体中存在一种共同的结构。无论核小体中DNA的全长如何,由DNA和组蛋白8聚体结合在一起的核心颗粒(core part
19、icle)包含146bpDNA。 每个核小体上DNA的总长度的变化是在基本核心颗粒上添加其他DNA的结果。,54,核心颗粒:组蛋白八聚,146bpDNA。该序列饶在核心外面形成1.75圈。,55,螺线管:10nm的染色质纤丝螺旋缠绕成直径为30nm的螺旋管,内径为10nm,螺距11nm ,螺旋的每一周由6个核小体组成。压缩了6倍,56,57,10nm的染色质纤丝螺旋缠绕成直径为30nm的螺旋管,内径为10nm,螺距11nm ,螺旋的每一周由6个核小体组成。,58,59,超螺线管:30nm的染色质纤维进一步环化,形成一系列的环。这些环附着在由非组蛋白组成的染色体骨架上,形成直径为300nm的螺旋
20、域。每个侧环长10-90Kb,约15-30微米。DNA又压缩了40倍。,60,染色单体:300nm的染色质纤维进一步螺旋化,形成直径为700nm的螺旋,这就是染色单体,此过程DNA折叠压缩了5倍。而由两条姐妹染色单体形成的中期染色体直径为1400nm,61,62,3.2.4 真核生物基因组特点,真核生物基因组数目比较大,一般都远大于原核生物的基因组。真核生物基因组一般由多条染色体组成,每条染色体又是由DNA分子与蛋白质稳定的结合成染色质的多级结构,储存于核内。 真核基因组的转录产物是单顺反子 真核基因组中存在大量的重复序列,真核基因组的大多数为非编码序列,63,3.2.4 真核生物基因组特点,
21、4. 真核基因是断裂基因,有内含子结构 5. 真核基因组存在大量的顺式作用元件。包括启动子、增强子、沉默子等 6. 真核基因组中存在大量的DNA多态性。S,P,串联重复序列多态性。 7. 真核基因组具有端粒结构。 8. 真核生物基因组具有多个复制起点,为多复制子结构,但每个复制子的长度较小。,64,概念:基因组,基因组(genome) :一个细胞中遗传物质的总和。原核生物一般只有一个环状的DNA分子,其上所含有的全部遗传信息为一个基因组。真核细胞常为二倍体(diploid),所以其基因组是指细胞中的单套染色体上的遗传物质的总和。,65,3.3 原核生物基因组 3.3.1 原核生物基因组概述,大
22、肠杆菌没有明显核结构,DNA集中在类核(nucleoid)。类核中,DNA 80%,其余为RNA和蛋白质。 细菌DNA是一条相对分子质量为2.4109道尔顿的共价、闭合双链分子,通常称为染色体。一般情况下只还有一条染色体。 虽然大多数细菌和古细菌染色体的确是环形的,但发现了越来越多的线形基因组。布氏螺旋体、链霉菌 长度为4.639106 bp,长1300m 大肠杆菌约编码4288个基因 E.coli在体内(in vivo)其基因组内含负超螺旋,每100bp就有一个负超螺旋,66,类核的结构,由支架(scaffdd)和向四周伸出的100个DNA环(小区, domain) 组成。 支架是RNA和蛋
23、白质的复合体,67,支架的形状因染色体而异,长度为3-5m,四周的每个环就是一个独立的功能区, 长40Kb,13m。 每个功能区保持超螺旋状态,而且一个区的超螺旋不影响另一个区的超螺旋,功能区的相对独立性使得同在一个环状染色体上的基因可以独立表达和调控。一个小区的DNA由两个端点被蛋白质所固定,因而每个小区都具有相对的独立性.,68,E.coli的类核由支架和向四周伸出的100个DNA环组成,支架是含RNA和蛋白质的复合结构,支架的形状因染色体而异,长度为3-5m,四周的每个环就是一个独立的功能区, 长40Kb,13m。,69,3.3.2 重叠基因,同一个DNA能携带两种不同蛋白质的信息。,7
24、0,71,X174单链DNA病毒共合成9个蛋白质,总相对分子质量为2.5105,相当于6078个核苷酸,而病毒DNA本身只有5375个核苷酸,顶多编码总相对分子质量为2.0105的多肽。,72,重叠基因,1. 一个基因完全在另一个基因里面,如基因B在基因A0内,基因E在基因D内。,73,2. 部分重叠基因K和基因C是部分重叠的 3.两个基因只有一个碱基对是重叠的,如D基因终止密码子的最后一个碱基是J基因起始密码子的第一个碱基。,74,重叠基因在G4噬菌体、SV40病毒中也有发现。 重叠基因仅在噬菌体和病毒中存在,在真核生物中尚未发现重叠基因。这可能因为前者基因组比较小,但又必须要编码一些维持其
25、生命和繁殖的基因,在选择的压力下,保留了这种重叠基因的形式。,75,3.3.3 原核生物基因组特点,原核生物的染色体分子量较小,细菌染色体通常由一条双链DNA分子组成(80%),相对聚集在细胞的中央形成为类核结构,没有核膜包裹。 功能上密切相关的结构基因串联在一起,并转录在同一个 mRNA分子中,称为多顺反子mRNA,翻译出多种蛋白质,受同一个调控区的控制,形成为操纵子结构。 重复序列和不编码序列很少。DNA的绝大部分是用来编码蛋白质的,只有非常小的部分不转录。,76,原核生物基因组特点,结构基因通常是单一的DNA序列,除rRNA和tRNA基因外,原核生物结构基因都是单拷贝。 原核生物基因是连
26、续的基因,不含内含子。 基因重叠是病毒基因组的结构特点,细菌基因组中编码顺序一般不会出现基因重叠现象。 基因组具有单个复制起点,为单复制子结构,但每个复制子的长度较大,77,真核生物基因组特点,真核生物基因组数目比较大,一般都远大于原核生物的基因组。真核生物基因组一般由多条染色体组成,每条染色体又是由DNA分子与蛋白质稳定的结合成染色质的多级结构,储存于核内。 真核基因组的转录产物是单顺反子 真核基因组中存在大量的重复序列,真核基因组的大多数为非编码序列,78,真核生物基因组特点,4. 真核基因是断裂基因,有内含子结构 5. 真核基因组存在大量的顺式作用元件。包括启动子、增强子、沉默子等 6. 真核基因组中存在大量的DNA多态性。S,P,串联重复序列多态性。 7. 真核基因组具有端粒结构。 8. 真核生物基因组具有多个复制起点,为多复制子结构,但每个复制子的长度较小。,