1、MCB 课程 真核细胞的基因表达和调控一,生物体内遗传物质的基本结构和功能单位是基因上个世纪 70 年代在细胞生物学, 细胞遗传学和生物化学的基 础上, 经过一系列重大发现而奠定基础,逐步发展形成了分子生物学 (molecular biology)这一现代生命学科。分子生物学认为生物体内存在着决定生物体性状的遗传物质,其基本的结构和功能单位是基因(gene)。基因的本质是一段携带着能合成功能蛋白质所需的全部信息的 DNA,其中包括着蛋白质的编码序列,也包括非 编码的调控序列。基因主要具有两大功能。一是指 导合成蛋白质,通过蛋白质发挥 的功能将遗传信息转换成具体的 细胞性状和功能;二是通过细胞有
2、丝分裂过程中的 DNA 复制(replication),将遗传信息传递给子代细胞,从而保持子代细胞与母代细胞性状的一致性。基因在双螺旋结构的 DNA 长链组成的染色体上呈线性排列。在哺乳动物的真核 细胞中线性排列的基因以核小体 (nucleosome) 的形式被紧密包绕存在于细胞核中, 组成核染质(chromatin)。核小体的核心是由 H2a,H2b,H3 和H4 四组组蛋白形成的八聚体,核心外包绕着 1 又 3/4 圈的 DNA 长链。因此在电镜下核染质呈“串珠样“ 结构。由于基因的本质是呈双螺旋结构的方向相反的两条脱氧核糖核酸(DNA)分子,因此基因的排列具有方向性,其 DNA 分子的
3、5端为基因的上游, 3端为基因的下游。构成基因 DNA 分子序列的有腺嘌呤(A)胸腺嘧啶(T)胞嘧啶(C )和鸟嘌呤(G)4 种碱基。在双链 DNA 分子中一条 DNA 分子上的 A 总是以两条氢键与另一条 DNA 分子上的 T 相结合,而 C 总是以三条氢键与 G 相结合。A 与 T,C 与 G之间称为互补关系(complementary)。双 链 DNA 分子中 A,T,C,G 的不同组合排列形成了三联密码,每一个三联密码都代表着一种相 应的氨基酸。然而,基因中的编码序列往往并不连续,其中间隔着非编码的序列。这些编码的序列称为基因 结构中的外显子,而非编码序列称为内含子。在基因的上游端具有
4、启动基因表达作用的特殊序列称 为启动子,它们的序列中富含 A,T,C, 在基因的上游,下游 较远处,乃至基因内部还有某些序列对基因的表达有明显的促进作用,称 为增强子。基因的下游端往往还有基因表达的终止信号。上述基因本身的主要结构统称为基因的顺式元件,而参与基因表达过程的基因外的蛋白质因子称为基因的反式元件(见下节)。上述排列着基因的 DNA 成为基因组 DNA,真核细胞中除了基因组 DNA 携带遗传信息外, 线粒体中能独立复制的 DNA 也携带着遗传信息。( 图 1: 分子生物学的中心法则-基因的表达 )二,生物个体的基因型决定了表现型分子生物学的中心法 则生物体内基因所携带的遗传信息是通过
5、分子生物学中心法则(central dogma)所表述的过程转变成生物体的性状的。中心法 则表明,一方面基因作为 DNA 可以通过复制使遗传信息传递给新生的 DNA 分子,从而传给子代细胞。另一方面,携 带遗传信息的 DNA 分子可以作为模版,通 过转录(transcription)而传递给转录产物 RNA(核糖核酸)分子, RNA 又能通过翻译(translation) 将其携带的遗传信息再转换成多肽/蛋白 质,从而使基因所携带的遗传信息最终转换成功能蛋白质而赋予生物体细胞特定的性状。基因的 遗传信息从 DNA 的形式最终转换成功能蛋白质的整个过程称为基因的表达。生物体内基因的 结构和功能形
6、式称为基因型(genotype) ,而生物体表现的外部形状称为表现型(phenotype)。所以,理论上生物体有怎样的基因就会产生怎样的性状。生物体的基因型决定了表 现型。但在 实际的具体生物个体上,基因型与表现型的关系不一定很明确。特别是在真核细胞生物中,一方面其细胞中含有比原核细胞复杂得多的遗传物质,其基因的数目成千上万,基因结构更精细更复杂。而这些 遗传物质以一定的方式被紧紧包裹压缩在 细胞核内的极小的空间里。另一方面,真核细胞生物大多数 为多细胞生物,生物体内往往已进化出多种组织细胞,它们具有完全相同的基因型,却在生物体生长发育的不同阶段表 现出不同的表型和功能。 所以,作为多细胞组成
7、总体的真核细胞生物来说,许多基因的功能不一定能在外部明确表 现出来,许多基因的功能之 间可以重叠和互补,因而掩盖了某一单个基因的功能。同时,具有某一种功能的基因都是以等位基因的形式成对地分别排列在一对染色体的相应位点上的。如果等位基因中的一个基因发生缺损,另一基因仍正常发挥 功能,生物体的性状并不 发生改变,必须两个基因都失去功能,生物体的性状才会发生改变。这样的基因称为隐性基因。如果等位基因中的一个基因发生缺损生物体的性状即发生改变。这样的基因称为显性基因。此外在形成生殖细胞的减数分裂过程中,线性排列在一对染色体上的几个基因有可能由于一段染色体的同源交叉(crossover)而变换位置, 发
8、生重 组。如果不同基因之间距离很近,往往同时变换 位置,因而重组体的子代细胞中,它 们决定的几种性状也往往同时出现或改变。这些基因之 间称为具有连锁关系(linkage). 位于性染色体 X 上的基因为性连锁基因,它们所决定的性状与一定的性 别同时出现,称为伴性遗传。 总之,真核细胞生物的基因型和表现型之间的相互关系日趋复杂和精细,而两者之 间的关系,即 细胞的基因型如何转换成表现型,就取决于基因如何表达的过程和被调控的机理。Staudt LM. N Engl J Med. 2003;348:1777-1785三,真核细胞内基因的表达过 程和调控机理真核细胞内的基因表达是一个多步骤的, 连续的
9、,精 细复 杂的过程。主要可分为转录,转录后加工,翻 译和翻译后修 饰 三个大阶段。转录是基因表达的第一步,是在细胞核内由单链的基因组 DNA 为模版,以 RNA 聚合酶和一系列酶为工具进行的合成反应,其产物是单链的 RNA 分子。转录从基因上游 5端的启动子开始, RNA 聚合酶 II 为主的转录复合物(主要是通用转录因子 GTFs 与其他因子构成的全酶 holoenzyme).结合到启动子上后不断沿着 DNA 模版向基因的 3端移动,转录也即开始从基因的 5端向 3端进行。直到RNA 聚合 酶 II 为主的转录复合物达到模版上基因的终止信号后,转录复合物即与模版分离,使转录停止。转录过程中
10、 RNA 聚合酶 II 根据与 DNA 模版序列的互补原则,将 带有四种碱基的核苷酸聚合成 RNA 分子,不 过 RNA 中不存在 T,由与 A 互补的 U 代替。为了使 RNA 聚合 酶和其他蛋白质 因子易于结合到基因的启动子上,首先必须使基因所在的核染质的空间构型松解开放,双 链 DNA 必须解聚为单链,这些都需要一系列酶的参与,如拓扑酶,解旋 酶等,也涉及核染质构型的重塑机制 (chromatin remodeling). 这一过程主要是由构成核小体中的组蛋白在核内酶的作用下发生周期性的乙酰化和去乙酰化,从而使核染质的构型不断发生紧缩闭合和松解开放的交替变化。当核染质松解开放时,外来的转
11、录因子等蛋白质容易接近而与 DNA 上基因的转录启始点 结合而启动基因的转录;反之,当核染质变得紧缩闭合时,外来的 转录因子等蛋白质难以接近 DNA 上基因的转录启始点,因而抑制基因的转录。(图 2: 核小体组成的核染 质的重塑)新生的转录产物 RNA 称为核内不均一 RNA,很不稳定,容易降解。必须经过 RNA 的转录后加工(post-transcriptional processing)才能成为稳定的 mRNA. 大约只有 15-20%的核内不均一 RNA 被加工成 mRNA.,通 过细胞核核膜上的核孔 输出到细胞质中,到核糖体上进一步翻译。RNA 的转录后加工主要包括在 5端加上 M-7
12、Gppp 帽,在 3端加上约 20 个多聚腺苷酸 (poly A)的尾,以及 RNA 分子的剪切(splicing). 剪切是复杂精细的过程,由核内剪切子(spliceosome) 或称 snRNPs 介导进行,它可 识别 RNA 中内含子 5端和 3端的 GU和 AG,将前后两个外 显子的两端拉近,中间内含子部分形成的攀被 RNA 酶切除后,各外显子就连接成完整的 mRNA.。由于剪切过程中可以发生不同的剪切方式,即选择性剪切 (alternative splicing), 形成的 mRNA.中可能含有同一基因的多段不同的外显子成分,因而AcetylationDeacetylation可翻译
13、成几种结构和功能不完全相同的蛋白质异构体。使单一的基因可以编码几种蛋白质。mRNA 在细胞质内翻译的 场所是核糖体(ribosome),它由 60S 和 40S 的两个亚单位组成,其中分别含有 28S 和 18S 两种核糖体 RNA(rRNA)。mRNA 分子遭遇附着核糖体后,其戴帽的 5端就从两个亚单位之 间穿过并前行。也即核糖体沿着作为模版的 mRNA 从 5端向 3端移动。随着移动核糖体就能读出 mRNA 分子序列中的三联密码,每种三联密码都编码一种氨基酸,但每种氨基酸可以有几种相应的三联 密码,其中 AUG 不编码氨基酸,而代表翻译的起始密码,UAA,UGA 和 UAG 代表翻译终 止
14、的密码。基因的翻译还需要转运 RNA(tRNA)的参加。tRNA 分子呈三叶草状,一条臂可与 rRNA 相连合,一条臂携带一个氨基酸,另一条臂为反密码 臂。当核糖体 读到某三联密码时 ,具有与此密码互补的反密码臂的 tRNA 就会结合到核糖体上,从而将相 应的氨基酸 带来并整合到氨基酸链上。随着氨基酸的增加,合成的肽链不断延 长。直到核糖体 读到终止密 码,mRNA 分子与核糖体分离,翻译即告终止。从 AUG 开始,三 联密码必须遵循一定的开放阅读框架 (open reading frame ORF) 阅读,直到终止密码,才能合成正确的氨基酸肽链,如果 ORF 改变,合成的氨基酸肽链也就变了。
15、例如当 mRNA 模版发生突变或缺失时 ORF 发生改变。此 时,合成的肽链中某些氨基酸可能发生改变,使其功能受到一定影响,这种突变成为误义突变。也可能所发生突变或缺失使终止密码提早出现,从而使 肽链不能合成或 仅仅能合成很短,并 导致丧失功能,这种突变成为无 义突变。一条 mRNA 模版可以同 时穿过多个核糖体,也即多个核糖体可同时按序从 mRNA 分子的 5端向 3端移动,所以一条 mRNA 模版可以同时翻译合成多条肽链。翻译合成的 肽链尚不是最终产物功能蛋白 质, 还必须经过翻译后加工,包括肽链间的连接裁剪,形成蛋白 质后分子的折叠,以及糖基化,磷酸化,乙酰化等修饰,才能最后成为具有功能
16、的蛋白质。(图 3: 真核细胞基因转录调控的模式 图)处于某一时刻的真核细胞内并非所有的基因都在同时有同样水平的表达。对于一个细胞体内每时每刻都在进行的如此精细复杂的多步骤的连续过程,显然需要有一套精密灵敏的调控机制加以掌握,才能保 证所有基因在质,量和 时空各方面的准确高效表达,以敷细胞各种生理功能行为之需。如果表达 调控机制出了差错 ,必然使 细胞遭受危害,甚至是致命的打击。所以基因表达的 调控机理是分子生物学理论 研究的核心问题。目前可将基因表达调控的机理简单归纳如下:在转录前,主要是确定将启动 表达的有哪些基因,此基因所在的核染质构型是否松解开放,该基因是否具备完备有效的启 动子等顺式
17、元件和其他 转录条件。而被启 动表达的基因往往必须首先感知到编程的信号或来自细胞外部而传入的信号,所以这些信号和指令是基因表达的先决条件。在转录过程中,影响转录效率的主要是 结合到 DNA 模版上的各种转录因子(transcription factor)。转录因子的发现至今已逾 20 年,做为基因转录的反式元件,早先对转录因子的一般概念是它含有两种结构域: DNA 结合结构域使之与 DNA 相连,激活或抑制结构域使之能调控转录。近年的研究 对转录因子的认识 又有显著的深化和发展。例如,转录因子在缺乏 DNA 结合结构域时也可通过蛋白质之间 的相互作用而与基因 DNA 上的启动子结合。又如转录因
18、子可同 时含有激活和抑制结构域,而 DNA 结合结构域本身就可起转录调控结构域的作用。另一个重要概念是转录因子一般并非 单独起作用,而是多个 转录因子通过相互作用,协同或 组成复合物形式来调控转录 。转录因子的作用需要其他蛋白质作为共活化或共抑制因子参与,而转录因子的功能本身也受一些小分子或其本身翻 译后的修饰所调控,这种调控可通 过多渠道,并 发生在多层面上。影响转录水平的另一重要机理是基因启动子序列内 CpG 的甲基化,高甲基化会 导致基因的低 转录表达,甚至使基因沉默(gene silencing). 这些机理都是当前研究的热点。转录后的调控主要作用于 RNA 的加工环节。新生的 RNA
19、 分子能否正确地“戴帽”“ 加尾”关系到形成的 mRNA 的稳定性,能否稳定地被运输到细胞质中,并顺利附着到核糖体上进行下一步的翻译。不能“ 戴帽 ”“加尾”的 RNA 将很快降解。另一个转录后加工的重要环节就是剪切。它关系到转录产 物是否正确以及最终是否能 获得功能蛋白质产物。 这一步骤精细复杂,往往易出差错而影响下一步的翻 译,是 进行调 控的重要环节。翻译过程中主要影响因素是 mRNA 分子 5端帽结构和 3端的非翻译区 5-UTR 和 3-UTR,其中前者的影响更大。5-UTR 的突变或缺失会使翻译效率大受影响。 mRNA 的稳定性也是影响翻译效率的重要因素。 稳定的 mRNA 分子可
20、在 较长时间内作为模版而翻译出较多的肽链,而不稳定的 mRNA 分子仅能充当几次模版就降解了。综上所述,基因的表达处在非常复 杂的调控机理控制下,任何环节发生问题和差错,都会导致基因表达在质,量和时空方面的异常,从而导致细胞表型的紊乱,影响细胞的正常生理功能和行为。四,真核细胞基因转录的表观遗传 学调控:近年来提出了表观遗传学调控的概念。 这一概念主要来自 对真核细胞发育进化过程的考察发现真核细胞内的基因的数量增加与其功能的多样化完全不相称。最明显的现象是人类基因组的研究结果表明人类的基因组中只含有大约 28000 - 30000 个基因,而这比人们根据人类所具有的复杂功能所想象的基因数目要少
21、得多,与 简单的低等动物的基因组中的基因数相比并没有多少增加。在类似的环境下的遗传 背景相似的真核细胞生物,其表现出来的功能表型可以有很大的差异。这些现象提示真核 细胞生物进化过程中获得的复杂多样的表型并非仅靠基因数目的增加,而更重要是靠每一个基因表达方式的增加,即单个基因表达能被编程和调控的方式变得越来越复杂多样。 这些无形的基因表达和调控的方式并不因为母代细胞分裂为子代细胞而消失,相反它可以在基因数目本身和 DNA 序列并无改变的情况下通过减数分裂或有丝分裂而遗传给子代。所以我们现在可以将真核细胞内包含的信息分为两种:有形的遗传信息和无形的表观遗传信息。遗传信息为真核细胞制造所有必须的蛋白
22、质提供了蓝图,而表 观遗传学信息则为细 胞何时何地如何使用这些蓝图提供了指令。在结构基因 组学进入功能基因组学的时 代,很 显然,研究无形的表观遗传学的调控机理比有形的基因结构的遗传学对阐明真核细胞生物的功能具有更重大深远的意义。目前认为表观遗传学机理是细胞 genotype 和 phenotype 之间的桥梁。在细胞 genotype 不变的情况下,环境的作用也会通 过影响表观遗传学的调控机理,从而改变细胞的 phenotype。不过环境影响所致的表观遗传学的改变往往非常微细和缓慢,不易觉察,且 这种改变在特定时间段内是可逆的,因此,细胞的 Phenotype 的改变不一定显现出来。各组织体
23、细胞随着正常的发育分化过程根据其内在的表观遗传学机理对基因的总体转录实行编程(program), 决定基因转录的态势,从而赋予分化成熟的各组织细胞特定的表型。如果人为地改变环境而改变一系列表观遗传学作用机制,可以使体细胞内基因转录的总态势被“重编程”(reprogramming),从而改 变体细胞的 Phenotype,甚至赋予成熟的体细胞新的“多能性”(pluripotency)。多细胞的真核细胞内基因表达激活的核心问题是基因所处的染色质的修饰,即一方面包裹在致密的染色质中的某个靶基因如何通过染色质组蛋白的修饰和重塑而被识别并激活,另一方面又需防止这些修饰重塑的染色质的范围蔓延扩散而使不应表
24、达的基因被激活。典型的染色质修饰起源于基因组的某一点(一般相当于某基因的增强子),再向周围扩散,一般是单方向的。这种染色质的修饰 会受到某些基因边缘的 DNA 序列的限制,这些序列称为边界元素(boundary element)或绝缘子(insulator), 对它们的作用和机理目前所知甚少。这些序列可能与特定的蛋白质结合,也可能在复合位点中将不同组织 特异性增强子分隔开,使某一 时间只有一种增强子发挥功能。边 界元素防止中心粒或端粒处 的异染色质扩散到常染色质区域。4.1,染色质结构的重塑机理及基因转录调控染色质结构的重塑调控基因的转录主要通过两种复合物来进行。一是 ATP 依赖的酶复合 物
25、,应用 ATP 作为能量水解破坏和改 变局部组蛋白与 DNA 链之间结合;二是组蛋白的乙酰化和去乙酰化酶复合物改变组蛋白氨基端的乙酰化程度。4.1.1, 组蛋白的乙酰化和去乙酰化与基因转录活化和抑制组蛋白的翻译后乙酰化和去乙酰化主要由组蛋白乙酰转移酶(histone acetyltransferase, HAT)和 组蛋白去乙 酰化酶(histone deacetylase, HDAC)复合物分 别执行。组蛋白的乙酰化有利于基因转录的活化。近年来 发现的组 蛋白乙酰化酶(histone acetylase)有 p300/CBP(CREB-binding protein)。它是 CREB(cyc
26、lic adenosine monophosphate response element-binding protein) 转录因子的共刺激因子。 许多转录因子都需与 p300/CBP 结合成复合物来激活转录。p300/CBP 本身具有乙酰化酶活性,与其结合的 p/CAF 和 hGCN5 以及TAF250 也可能有组蛋白乙酰化酶活性。 这几种乙酰化酶组 成的复合物被转录因子带到特异性基因启动子激活转录。此外 ACTR (activator of the thyroid and retinoic acid receptor) 和 SRC-1(steroid receptor coactivato
27、r)也具有乙酰化酶活性,在某些基因转录活化中起作用。多种组蛋白乙酰化酶往往组成不同的复合物共同激活一个基因的转录,提示不同的乙酰化酶可能作用于不同的核内组蛋白底物,表明了 问题的复杂性。另一方面,组蛋白的去乙酰 化抑制基因的转录。 长期以来就知道某些物 质,如丁酸钠,trichostatin A 和 trapoxin 会造成组蛋白高乙酰化。它 们都是 组蛋白去乙酰化酶(HDAC)的抑制剂,丁酸钠的作用较为非特异,而 trichostatin A 和 trapoxin 分别可逆和不可逆地特异性抑制组蛋白去乙酰化酶。HDAC 是进化中高度保守的,它一般都以与 Sin3 和 Rb 等共抑制因子组成的
28、复合物形式存在,并被某些特异的 DNA 结合性转录因子,如 Mad, E2F 和未结合配体的核激素受体,带到 DNA 特定序列附近。近来研究发现 HDAC 涉及基因前 CpG 的甲基化过程而抑制基因的转录,甲基化的 CpG 及与之特异性结 合的 Mecp2 蛋白已知能使基因沉默。目前认为是 Mecp2 能将 Sin3 和 HDAC 拉近 DNA 上的启动子序列从而抑制转录。有趣的是,大多数组装着 HDAC 复合物的 DNA 序列都可对其下游基因 转录有着两种相反的调控功能,是使转录增强还是沉默取决于 组装其上的是组蛋白乙 酰化酶复合物, 还是 HDAC复合物。不同真核细胞内有多种 HDAC/R
29、pd3 蛋白质。人 类 的 3 种 HDAC/Rpd3 蛋白质在各种组织细胞中都表达,似乎没有 组织特异性的表达谱, 对 4 种组蛋白底物也未报导有作用特异性。其转录抑制功能来自去乙 酰化的酶学活性,如果 HDAC/Rpd3 突变使去乙酰化活性缺陷,则以显性负作用方式使 转录抑制功能丧失。4.1.2, ATP 依赖性染色质结构重塑复合物与基因转录调控除了对组蛋白的乙酰化修饰外,另一 类参与染色质结构重塑的 酶复合物也调控基因的转录,它们含有腺嘌呤三磷酸腺苷 酶(ATPase) 活性,能利用 ATP 提供能量水解而破坏或改变局部 DNA 与组蛋白间的相互作用。 这类复合物包括酵母中的 SWI/S
30、NF 和高等真核细胞中的 BRG1 和 BRM. 它们都能改变核小体的结构而使转录 因子易与之结合。酵母中的 RSC (remodeling the structure of chromatin)和果蝇中的 NURF (nucleosome-remodeling factor)都含这类复合物。这些不同物种的复合物中 虽然包括不同的组 分并具有各异的性质,但他 们都含有 SWI/SNF 相关的 亚单位,因而具有 ATPase 和螺旋酶(Helicase)活性。实验表明人类hSWI/SNF 的作用是使核小体在正常构型和较开放的构型之间可逆地交互变换。这一变换之际为转录因子接近并与 DNA 结合提供
31、了机会。 虽然一般认为 ATP 驱动的染色质重塑活性与组蛋白乙酰化不同,但近来的研究表明两种活性可能密切相 连。例如 应用 HDAC1 和HDAC2 单抗提纯细胞内组蛋白去乙酰化酶相关蛋白时,发现多个含有 HDAC1/2 的蛋白复合物,而在这样的复合物中就有两种蛋白 质(CHD-3,CHD-4)是 SWI/SNF 样蛋白质,具有ATP 依赖性染色质结构重塑活性。 这种活性虽非为使组蛋白去乙 酰所必需,但能促 进其组蛋白去乙酰化酶的活性。此复合物称 为 NRD (nucleosome remodeling and histone deacetylases), 其两种活性相辅相成,能充分地 调控基
32、因的转录。哺乳 动物 细胞中 BRG1 和 BRM.具有ATPase 酶活性,是 SWI/SNF 复合物中的主要成分,有利于促进转录。它 们常与 Rb 蛋白相互作用,而 Rb 常会拉近组蛋白去乙酰化酶来抑制转录。这提示两种相反的染色质重塑活性结成对子,可能是调控转录的一种常 见形式。 长期以来,人们较多关注转录因子对真核细胞基因转录的作用,近两年的发现 表明转录因子激活转录还必 须通过与某些基本的转录复合物中的成分相互作用来实现。转录 需要分几步进行。第一步由上述两种不同的染色质重塑机制(组蛋白乙酰化和 ATP 依赖性染色质重塑活性)协同重塑细胞染色质,然后由转录因子和基本的转录复合物中的成分
33、相互作用,并与基因启动子 DNA 上转录活化基序结合,从而使转录复合物参与激活转录。在这过 程的开始,一 类转录因子可能首先与 处于核小体之间的DNA 上转录因子结合位点结合,并将 组蛋白乙酰化酶复合物拉近 DNA 而乙酰化核小体中的组蛋白,开放核小体结构,使之易于接受其他转录因子或基本 转录复合物。然后第二类转录因子再引入其他基本转录复合物而激活转录。同 样, 转录 抑制可能也是这样两步的过程。4.1.3, DNA 甲基化和染色质蛋白甲基化对基因转录的影响基因组含有遗传(genetic)和表 观遗传(epigenetic)两类信息。遗传信息为合成生命所需的全部蛋白质提供蓝本,而遗传外信息 为
34、遗传信息在何时何地如何 发挥作用提供指令。最重要的遗传外信息是 DNA 的甲基化,也即在 CpG 中的胞嘧啶的 5位上以共价键加上甲基基团的态势。DNA 的甲基化对哺乳动 物的基因组有重大的影响,包括对基因转录的抑制,染色质结构修饰,X 染色体失活和基因组的完整性和稳定性等。 CpG 的甲基化由三种独立的甲基转移酶 DNMT1, DNMT3A 和 DNMT3B 催化。最近还克隆了第四种甲基转移酶 DNMT2。利用果蝇基因敲除实验表明 DNMT3 属于“初始类” (de.novo),而 DNMT1 属于“维持类”(maintenance)。因为 DNMT1 敲除的 ES 细胞仍能保持初始的甲基化
35、活性,而 DNMT3A 和DNMT3B 的纯合缺失并不能改变 ES 细胞中已存在的 DNA 甲基化态势。但 DNMT1 基因的杂合性缺失却造成甲基化胞嘧啶的含量减少 70%。不过某些转基因实验的结果也提出了争议。有可能此 3 种 DNMT 酶在体内都具有起始和维持甲基化的功能,它们对特定的基因组DNA 的转甲基功能必须视与其他核蛋白或 DNA 结合因子的相互作用而定。ICF 是一种极为罕见的常染色体隐性遗传病,具有 严重的免疫缺陷(至少 2 种免疫球蛋白严重减低),伴有呼吸道感染,不同程度智力低下,发育迟缓和奇特面容。目前研究表明,ICF 可能由DNMT3B 基因在不同区段的突变而使甲基化功能
36、减低或影响其与其他 DNA 结合蛋白的相互作用所致。多种智力低下的遗传病均有细胞内甲基化的缺陷,提示甲基化介导的染色质修饰可能对脑的发育具有特殊的重要意义。在 肿瘤细胞中,基因组的甲基化态势经常有很大改变。在基因组整体低甲基化的大 环境中特定区域出现高甲基化。大多数低甲基化发生在正常时原本高甲基化的重复或“寄生”的元件区域,使这些转座元件的转录增加而增加了基因组的不稳定性。许多实验证据表明 DNA 甲基化对肿瘤发生具有早期直接的作用。例如在某些抑癌基因(如 Rb)的启动子处发 生高甲基化,就可使抑癌基因的表达沉默而使细胞获得增殖的优势。又如具有微卫星不稳定性的大 肠癌细胞中错配基因 hMLH1
37、 的启动子也发生高甲基化而导致转录沉默。此外,在实验性肿瘤模型和自然发生的肺癌上皮细胞中也可测知 P16INK4a的启动子高甲基化。在肿瘤细 胞 DNA 中约 45000 个 CpG 中,有人分析了 98 种肿瘤标本中的 1184 个 CpG 的甲基化状态,发现平均 608 个 CpG 有异常甲基化(最高可达 4500 个CpG)。但甲基化程度在不同个体和不同肿瘤类型之间有差 别。乳腺,头颈部和睾丸瘤的 CpG异常甲基化率较低而大肠癌, 脑胶质瘤和白血病细胞的异常甲基化率 显著增高。此外,CpG的异常甲基化并非随机分布,提示某些基因 CpG 比其他处 更易甲基化或某些基因 CpG 丢失甲基化能
38、使细胞获得生长优势。甲基化的 DNA 可能通过与之结合的 MeCP2 蛋白拉近HDAC,而使局部染色质核组蛋白去乙酰化,从而抑制转录。除了 MeCP2 以外,近来 还发现MBD1,2,3 , RbAp46/48 等蛋白质也与甲基化的 DNA 相连,并与染色质重塑机理相关。除了 DNA 甲基化外,近来发现 核内组蛋白在赖氨酸和精氨酸位上的甲基化也能与组蛋白的其他翻译后修饰共同调控染色质构型和基因的转录。在 H3 分子的核心及尾部的多处赖氨酸位点,以及 H4 尾部单个赖氨酸位点可发生甲基化,此外,还有 H3 的三处精氨酸位点和H4 上一处精氨酸位点也发生甲基化。许多转录因子和与 RNA 加工过程相
39、关的蛋白质也都会甲基化,提示核内许多蛋白 质的甲基化也可通过其他途径 调控转录或转录后步骤。在表 观基因组(Epigenome)中(见下图),H3K4me1, H3K36me3 和 H3K4ace 是染色质开放(呈常染色质),基因转录活化的标志;相反,H3K9me2,3 和 H3K27me3 是染色质闭锁(异染色质),基因转录受抑而静息的标志。组蛋白 赖氨酸的甲基化由赖氨酸甲基 转移酶(KMTs 或 HMTs)催化。这些酶大多数含有保守区 SET 结构域。与 组蛋白乙酰化相同,组蛋白甲基化也是可逆的。两族赖氨酸去甲基化酶(KDMs), 包括 LSD1 和 Jumonji 酶 可使 H3 或 H
40、4 的赖氨酸去甲基化。同样,不同的酶也可使精氨酸去甲基化。这些组蛋白甲基化和乙 酰化修饰相互排斥,也可相互转换,从而使不同基因的转录态势处 于某种动态的平衡。在静息或异染色质区域,H3K9的甲基化与 DNA 的甲基化相关联。 靶向 H3K9 赖氨酸的酶是含 SET 结构域的 Suv39h1. HDAC 对 H3K9 的去乙酰化必须发生在该位点的甲基化之前。甲基化的 H3K9 会募集蛋白质 HP1, 结合于 H3K9me 的 HP1 则靶向激活 DNA 甲基转移酶 (DNMTs), 使该处的 DNA发生甲基化。在整个基因组的范 围内, 标示出各 DNA 序列所处的染色质构型的表观遗传学标志,从而
41、显示出各基因的转录 活性,就形成了表 观基因组 。4,1,4 非编码 RNA近年来,继在细菌中发现有小 RNA (约 50-200 核苷酸) small RNA(sRNA)可调控靶基因的翻译后,在大多数真核细胞内也 发现有微小 RNA (MicroRNA, miRNA)能调控许多基因的转录。miRNA 是约 22 个核苷酸的非编码 RNAs (non-coding RNAs),能 够以序列特异性的方式,通过抑制转录产物的翻译和促使 mRNA 降解的方式调控基因的表达。人类基因组中估计有1000 多种基因编码 miRNAs 参与细胞内的 RNA 干扰(RNAi) 而不编码蛋白质。 其中约半数以编
42、码基因的内含子为模板产生,另一半来自 长非编码 RNA (lncRNA),有些 miRNA 甚至来自失活的假基因。此外,生殖细胞内有一类特殊的 miRNA 称为 piRNA (piwi-associated RNAs)。另一种在病毒感染时产生的 siRNA (small interfering RNA), 两者都能调控细胞内可移动元素的表达。miRNAs 的生物合成过程主要分为两个步骤:首先在细胞核内由编码miRNA 的基因为模板转录为 初始转录本 (pri-miRNA), 其分子序列往往自我互补而自动折叠成双链发夹结构。此分子在 细胞核内被 Drosha (一种 RNase III 超家族成
43、员的内切酶) 切割成约 70bp 的前 miRNA (pre-miRNA)后转运出细胞核,到达细胞质内。第二步,再由 Dicer酶催化切割成 22bp 的双链 RNA。这些短小的双链 RNA 参与组成复合物 RISC (RNA-induced silencing complex),该 复合物中的 Argonaute (Ago) 家族蛋白可以最终将之加工成单链的 miRNA,并投递到其靶 mRNA 的 3-UTR 上发挥作用。作为一种公认的重要表遗传机理, 虽然它们并不影响 DNA 序列的改变,但对人类的健康生长发育和疾病的发生却有着非常深远的影响。据 2007 年 8 月发布的最新资料统计,目
44、前在人类基因组中已被确认的 miRNA 序列已有 500 多种,并预测至少还有相同数量的miRNA 序列有待证实。人类细胞中约有三分之一 mRNA 种类都受 miRNA 的负调控。在进化上 miRNA 比较保守,其分子茎部保守性更强,而环部可能存在突变。miRNA 基因以单拷贝,多拷贝和集簇等形式排列在基因 组中, 绝大多数位于蛋白 质编码的基因间隔区,独立转录,但不翻译成蛋白质,其表达水平有较强的组织特异性和 时相性。miRNA 一般不改变其作用靶 mRNA 的稳定性,而通过 抑制 mRNA 的翻译而使基因沉默。 由于一般 miRNA 针对mRNA 分子 3端的非翻译区形成互 补,并不能完全
45、封闭其翻译,所以在表遗传的层面上miRNA 本身只以一种潜在的,非直接的方式同 时调控许多基因的表达。miRNA 有两种方式降解和下调 mRNA。如果两者高度互 补, 则 miRNA 通过去除帽和 polyA 的尾而切割和降解mRNA。不过大多数情况 miRNA 与其互补序列结合得并不完全,因此仅能抑制靶 mRNA 的翻译。4.2,转录因子功能的调控转录因子的发现至今已逾 20 年,做 为基因转录的反式元件,早先对转录因子的一般概念是它含有两种结构域: DNA 结合结构域使之与 DNA 相连,激活或抑制结构域使之能调控转录。近年的研究对转录因子的 认识又有显著的深化和发展。例如,转录因子在缺乏
46、 DNA 结合结构域时也可通过蛋白质之间的相互作用而与基因 DNA 上的启动子结合。又如 转录因子可同时含有激活和抑制结构域,而 DNA 结合结构域本身就可起转录调控结构域的作用。另一个重要概念是转录因子一般并非单独起作用,而是多个转录因子通过相互作用, 协同或组成复合物形式来调控转录。转录 因子的作用需要其他蛋白 质作为共活化或共抑制因子参与,而转录因子的功能本身也受一些小分子或其本身翻译后的修饰所调控,这种调控可通过多渠道,并发生在多层面上。4.2.1, 转录活化和抑制结构域 (domain) 的作用机理RNA 聚合酶 II 对基因的转录需要在基因的启动子上组装通用性转录因子(genera
47、l transcription factors GTFs) 来构成启动前复合物 (preinitiation complex, PIC). 对大多数基因启动子来说,开始由 GTF-TFIID 与 TATA 盒结合。TFIID 是一个多亚单位因子,由 TATA结合蛋白(TBP)和 TBP 相关蛋白(TAFs)组成,再加入 TFIIA, TFIIB,然后再结合上 TFIIE, F, H 和 RNA 聚合酶 II 组成完整的 PIC。不过,正常情况下似乎许多 GTF 还和其他因子与RNA 聚合酶 II 共同组成一个全酶 (holoenzyme).虽然不同方法提取的全酶的组分高度变化,但各种方法的全酶
48、提取物中总含有几种 GTFs,包括 SRB (suppressors of RNA polymerase B)和 MED (MEDiator) proteins.所以 PIC 的组装可能仅需要有限的因子,这些因子被认为对调控基因转录是最重要的。上述 PIC 足以在裸露的 DNA 模板上启动转录,但在活细胞内 DNA组装成染色质,使 PIC 不易接近 DNA。所以染色质结构必须经过重塑(见上述重塑机理)才使 PIC 得以与启动子结合。 转录效率被严格控制,例如在细胞有丝分裂时转录过程即停顿。此时转录机器被直接修饰,故影响到所有的基因。还有些机制是全局性的,如 Dr1 是通用的转录抑制因子,它直接
49、接触 TFIID,阻止 TFIID 与 TATA 盒结合而使 PIC 不能组装。更重要的是那些作用于特异基因启动子相关序列元件而以基因特异性方式影响转录的调控因子。特定基因的转录过程包括一系列分子事件。其中有多处环节 可被调控。例如染色 质重塑,PIC在转录前的组装,PIC 的结合使 DNA 模板熔为单链并由 RNA 聚合酶 II 与启动子结合,此后伴随着核小体的重塑,PIC 中的多种因子脱离而变成为延长转录的新的 PIC。其间,TFIID始终保持与 TATA 盒的结合。延长转录的复合物也是被调控的靶点。转录调控因子可在上述所有环节上调控转录,某些可活化 转录,某些抑制 转录。不过近来发现一些转录调控因子在不同的细胞环境下既可激活,也可抑制 转录。转录活化因子的活化结构域根据其氨基酸组成大致可分为几类:一类如疱疹病毒 VP16 蛋白和酵母 GAL4 蛋白中活化 结构域那样的酸性转录活化 结构域,另有谷氨酸富集(如SP1)和脯氨酸富集(如 CTF1)的两类转录活化结构域。其中某几组疏水的氨基酸残基在上述三类转录活化结构域中都对其活性功能起关键作用。 转录 活化结构域怎样发挥功能是基因表达的中心问题。转录活化因子的作用必 须与染色质重塑 过程相配合。几种染色 质重塑因子与转录活化结构域都相互作用。例如作 为 HATs