1、 Functions of DNA methylation: islands, start sites, gene bodies and beyondDNA甲基化功能:岛,起始位点,基因体和其他peter a. jones摘要 DNA甲基化通常被描述为一个“沉默”的表观遗传标记,的确,5甲基胞嘧啶的功能最初是在20世纪70年代提出。现在,归功于甲基化绘图的基因组规模的改良,我们可以评估在不同的基因组背景下的DNA甲基化:在基因体上,在调控元件和重复序列上,转录起始位点有或者没有CpG岛。新出现的图片是DNA甲基化功能似乎随背景而改变,DNA甲基化和转录的关系比我们最先认识到的更为微妙。有必要提
2、高我们对DNA甲基化的功能的理解,为了解释这个疾病标记中观察到的变化,比如癌症。两篇重要的文章在1975年分别表示胞嘧啶残基的甲基化在CpG二核苷酸背景中能作为表观遗传标记。这些文章提出序列可以被重新甲基化,即甲基化通过一种机制的体细胞分裂能够被遗传,包括一种能识别半甲基化CpG回文的酶,甲基基团的存在,可以由DNA结合蛋白和DNA甲基化直接沉默基因解释。虽然这些关键原则中的几个被证明是正确的,解开DNA甲基化与基因沉默的关系已被证明是具有挑战性的。在CpG序列背景下,在动物身上的大部分工作都集中在5甲基胞嘧啶(5mC)。据报道,在哺乳动物的其他序列的甲基化广泛分布在植物和一些真菌中。在哺乳动
3、物中,非CpG甲基化的功能目前未知。在这里我主要集中在哺乳动物基因组中的CpG甲基化,包括在其他动物和植物中观察到的差异的讨论。理解DNA甲基化的功能需要通过基因组考虑甲基化的分布。超过一半的基因脊椎动物的基因组包含短(约1 kb)CpG丰富的区域称为CpG岛(CGIS),其余的基因组因为CpGs而耗尽。当5mC通过自发或酶胸腺嘧啶脱氨基作用被转换成胸腺嘧啶,认为基因组的损失是由于甲基化的序列在种族中的脱氨基;认为CGI存在是因为他们可能是从来没有或只有瞬时甲基化。然而,有很多关于准确定义CGI是什么的讨论,虽然在哺乳动物基因组中的启动子的CpG密度有双峰分布,有中等CpG密度存在的区域。直到
4、最近,很多对DNA甲基化的研究集中在CGIs转录起始位点(TSSs),正是这种工作这往往塑造了对DNA甲基化功能的广泛认同。 基因组甲基化研究的最新方法(图1)-例如,使用亚硫酸氢盐处理DNA(它能检测到5mC和羟甲基胞嘧啶;见图1)-强调的是甲基化在转录单位中的位置,影响其与基因控制的关系。例如,在TSS区附近的甲基化开始,但是在基因体中的甲基化不堵塞,甚至可能刺激转录延伸,和令人兴奋的新的证据表明,基因体的甲基化可能对剪接有影响。如着丝粒重复区域的甲基化对染色体稳定性很重要(例如,在有丝分裂中的染色体分离),也有可能抑制转座因子的表达从而有一个基因组稳定性的作用。在改变增强子、绝缘子和其他
5、调控原件的活性方面,甲基化的作用才开始受到重视。然而虽然有很多在TSSs上的甲基化的CpGs 与一些沉默基因有联系的证据,重新甲基化和基因沉默的时间现在开始得到阐明。DNA甲基化的功能本质上链接到建立、维护和移除甲基组的机制上,这些机制到处可见,但是一些关键点需要铭记在心。它已经知道很多年,DNA甲基转移酶,包括所谓的DNA重新甲基化转移酶Dnmt3a和Dnmt3b,是早期发展建立的DNA甲基化模式的本质。我们弄明白这是如何发生的有很大的帮助,在某些情况下,核小体DNA是重新甲基化酶的底物。基底的重新甲基化,核小体内的组蛋白修饰深刻地影响这些酶诱导从头甲基化能力。这是以前认为的存在本身能维持建
6、立DNA甲基化的模式,但现在我们知道这是不真实的, DNMT3A和DNMT3B持续的参与是对甲基化的维。三个DNMTs中的每一个都是胚胎或新生儿的成长所必需的,完全缺乏的甲基化与体细胞或者癌细胞的发育能力是不相容的,但不是胚胎干细胞(ESCs)17。DNMT3A最近已被证明对造血干细胞的分化很重要,又指着5mC在脊椎动物分化的基础。关于基因沉默重新甲基化的时间,又进入一个的范围。提出直接作为riggs2和霍利迪和pugh1不可能是基因沉默的主要途径。被动或主动删除5mC意味着建立后续基因表达能接受的状态。DNA去甲基化酶的研究已经很长时间了,已经充满了许多失败的开始,但现在更广泛接受的是去甲基
7、化酶的存在。最近,大量的文献表明,主动去甲基化是可以实现的,虽然这需要一种机制,最终涉及细胞分化或者DNA修复和碱基的切除而不是甲基群直接从5mc 组成成分中移除。比如(TET)甲基胞嘧啶双加氧酶参与,活化诱导胞嘧啶核苷脱氨酶(AID)和胸腺嘧啶DNA糖基化酶(TDG)活性和被甲基化和在基因中的激活现在已经阐明。事实上, TET3的缺乏导致脱甲基CpG位点在关键基因的失败比如Oct4(也称为Pou5f1)或在父亲基因组上的Nanog和延误胚胎发育。DNA甲基化的改变是现在已知的遗传事件和包括在人类致癌中。因此,了解DNA甲基化的作用对于理解生病过程是必不可少的。在本文中,我对背景中无关紧要的基
8、因组中的DNA甲基化的功能进行了评估,与特定的重点与转录的关系(已知和未知的重点总结在表2)。然后我介绍了可能的机制,DNA甲基化可能用到,例如,通过改变蛋白结合,我思考了剩下的问题。在转录起始位点模式在 CpG岛的转录起始位点。大多数的CGIs维持了体细胞中的非甲基化。当有CGIs的基因在TSS是活跃的,它们的启动子通常有在TSS上的NDRs表示的特征,而这些NDRs通常是两侧的含有组蛋白变体H2A. Z的核小体。是用在赖氨酸 4(H3K4me3)上的组蛋白H3标记的。基因表达的水平被转录因子控制。CGI的启动子被抑制有不同的机理,比如由多梳蛋白调节的启动子。例如,胚胎发育的主要调节基因编码
9、被在ESCs和分化的细胞里的不能表达这些基因的多梳蛋白抑制,如肌源性的分化1(MyoD1)或者修补盒6(Pax6),他们有在TSS上的核小体和被H3K27me3标记,和失活的基因有关系。然而,一些被抑制的基因使启动子CGIS甲基化。启动子CGISs的甲基化通常限制抑制状态的长期稳定的基因。 例子包括印记基因,位于失活的X染色体基因与专门表达生殖细胞的基因和假设在体细胞中表达不合适的基因。能持续100多年寿命CGIs的DNA甲基化抑制的稳定性对CGIs的生存无影响。因为在体细胞中的这些区域中任何脱氨基事件不会传递种系给后代。我们仍然没有完全弄明白为什么少数CpG岛甲基化,而不是大多数。在非CpG
10、岛的TSS的模式。和他们的TSSs上的有CGIs基因相比,在TSS上CpG很弱的基因是大幅波动发生在启动子甲基化水平的基因。非CGI TSS的基因在原始生殖细胞基因中表达的是在TSS上的非甲基化,因此在ESCs上专门表达的基因或者在精子细胞的组织特异性基因经常显示甲基化而不是在卵母细胞或者体细胞中表达。众所周知的例子是Oct4和Nanog基因编码的转录因子,维持干细胞状态是必不可少的。最近的研究表明,Oct4 和NANOG启动子可能被AID和/或者TET3活化甲基化。然而,一些组织特异性的基因在精子和ESCs中显示甲基化,仅仅显示在被表达的基因中特异性组织的脱甲基化。一个全基因组研究假定在非C
11、GIs和表达之间的甲基化没有相反的关系存在,但是数据的再分析表明表达和甲基化之间的这种关系事实上显然是全基因组。由于长期关注CGIs,我们仍然不知道在控制非CGI TSS甲基化作用的细节。甲基化转录起始沉默吗?在上面描述的一些抑制的TSS甲基化观察, DNA甲基化和转录起始之间的功能关系是什么?有确凿的证据,在TSSs的CGIs甲基化在DNA装配进核小体后不能启动转录。然而,是沉默还是甲基化的问题在这个领域首先就进行了长时间的讨论。洛克等人的早期实验。清楚地表明, 失活的X染色体上的Hprt基因的甲基化发生在染色体灭活之后。换句话说,甲基化似乎是“锁定”加强先前沉默状态的X连锁基因。虽然在常染
12、色体基因上的大多数的 CGIs在体细胞上保持非甲基化,少数(10%)在正常组织和细胞中甲基化,但关于沉默的重新甲基化方面的期限没有深入的研究。如上所述,最近发现DNMT3的作用对造血干细胞分化的提高怀疑长期“锁定”模型普遍性。由于作者的研究结果表明,甲基化酶对相当短命的细胞类型分化非常重要,看来可能是DNA甲基化在启动时有一个更有指导意义而不是加强沉默。然而,在癌细胞的基因组范围研究,表明被多梳蛋白复合物沉默的CGI的启动子基因比在癌症中的其他基因更可能甲基化:即甲基化之前的沉默状态。因此,似乎沉默之前的甲基化是一般机制,但数据尚未成熟到肯定的程度。除了改变自己在CpG岛,组织特异性的改变发生
13、在它们周围的边上。然而,对这些变化还不了解。关于DNA甲基化的期限的证据有一致的想法,甲基化增加了一个表观遗传状态的稳定性水平。有趣的是,它不是要求在一些物种中为达到这个目的, 包括黑腹果蝇和酵母。转录和重新甲基化之间的关系。DNA甲基化可能不作为一个初始的沉默机制的原因正开始被理解。欧意等人的开创性工作表明,细胞表达DNMT3L中的重新甲基化过程(这是一个有活性的同源DNMT3A和DNMT3B的催化剂)是通过DNMT3A2和DNMT3L的每一个两个分子的四聚体复合物完成的,还需要一个核小体。活跃的TSS是废弃的核小体和因此缺乏重新甲基化的底物。 最近,我们通过测试在胚胎中用维甲酸诱导癌细胞分
14、化OCT4沉默的动力学来直接测试了启动重新甲基化的核小体的作用 。这些实验表明,在Oct4的远端增强子和Nanog启动子上,分化后,第一个核小体出现了,然后核小体被新生成的DNMT3A跟随,随后,重新甲基化发生了。在不表达DNMT3L的细胞中是否有一个事件的相似序列发生尚未知晓。此外,Ooi等人研究表明重新甲基化不能发生在一个与活性基因相关联的接受H3K4me2或者H3K4me2标记的核小体上。核小体侧翼废弃核小体启动子通常包含的标记H3K4m组蛋白和变体H2A组蛋白。两者都与DNA甲基化强烈的反相关。在小鼠的h3k4me3mark的发生可能通过CXXC(cxxc1;也被称为cfp1)手指蛋白
15、1保持,重新生成的H3K4甲基转移酶的标记和重新甲基化不相容。CpG岛的未甲基化的状态也可能来保证TET1蛋白的存在,这个是在一个TSS的高比例的CpG含量高的启动子中发现的。据推测,Tet1使任何在这个区域可能变成5羟甲基胞嘧啶的5mC转变。有活性的CGIs分子结构因此可以解释为什么他们可以抵抗甲基化。当然,并不是所有的CGI的启动子基因在胚胎干细胞中表达,和许多被多梳复合物抑制,因此为什么这些不重新甲基化?答案可能就在于他们包含对抗性的H3K4me3的事实(参考文献 和H2A),也势必受到Tet1束缚,这将确保他们保持5mC自由。有趣的是,这种保护似乎在永生化期间被打破,这些CGIs变成非
16、常容易受到重新甲基化影响,致癌基因转化后甲基化增高。该模型预测,较高水平的表达,一个CGI变成重新甲基化不太可能。支持这个预测的直接证据最近来自几个激动人心的论文表明,CGIS的单等位基因甲基化优先发生在少于高表达的等位基因上。例如,Hitchins等人。研究表明MLH1基因的一个等位基因包含一个启动子的单核苷酸变异等位基因,转染实验中的这个启动子比普通等位基因活性更低,更可能使癌症影响得家族体细胞甲基化。换句话说,不活跃的等位基因也更容易获得重新甲基化。另一种情况下,是由boumber等人研究的。他们发现没有多态性的等位基因比创造了另外的转录因子Sp1结合位点或者sp3的启动子多态性的RIL
17、的等位基因(也称为Pdlim4)更容易甲基化。因此,额外的sp1位点赋予了该等位基因重新甲基化的阻力,虽然作者不能显示额外的转录因子结合位点增强的基因表达。基因体甲基化大多数的基因体是弱CpG ,基因体甲基化是广泛的甲基化,包含多个重复和可换位的成分。在基因外显子上的CpG位点甲基化是 CT转换突变的主要原因,在生殖细胞肿瘤引起疾病突变和在体细胞中导致致癌突变。重要的是认识到,虽然许多CGI是位于基因的启动子上,CGIs也在基因体细胞和基因沙漠上存在。虽然他们的功能在这里仍然不明,Adrian Bird认为这些地区代表“孤儿启动子”。可以用在发展的早期阶段和甲基化在生殖细胞逃脱以便他们保持 C
18、pG的高密度。基因体甲基化与抑制不相关。从早期的DNA甲基化研究中知道基因体的甲基化是基因转录的一个特点。有活性的转录和基因体甲基化之间的广泛的正相关的关系,最近被证实在有活性的X染色体上和通过鸟枪法用亚硫酸盐对植物和动物基因组测序。大多数基因体不是CGIs,当没有杂质的CGIs位于基因内的区域,认为他们保持非甲基化。然而,最近的实验改变这种看法:例如,在人脑中,有34%的CGI片段是甲基化的。这种甲基化的作用是否是组织特异性,目前还不清楚。这是耐人寻味的,特别是因为TSSs在很大程度上仍然没有甲基化。癌症的甲基化,基因内的 CGIs也可以是优先的位点。即使基因本体CGIS可以广泛的甲基化,这
19、不会阻止转录的延伸。尽管这是事实,甲基化的SGIs被H3K9me3标记和被甲基-CpG-结合蛋白束缚,当他们在TSS上的时候,甲基-CpG-结合蛋白是和抑制转录相关的染色质的特征。这导致一个明显的悖论,在启动子的甲基化与表达呈负相关,而在基因体甲基化表达呈正相关。因此,在哺乳动物中,它是转录的起始,而不是对DNA甲基化沉默敏感的转录的延伸。相比之下,CpG上胞嘧啶甲基化和其他序列的背景下霉菌的延伸而不是开始。因此,它不仅是一个存在5mC标志本身存在,而是管理它的转录关系而不是解释特定基因组和细胞背景的标志。基因体甲基化的可能功能。在CGIs外的基因体甲基化功能是什么?最初,人们认为这是沉默的重
20、复的DNA成分甲基化的主要机制,如逆转录病毒、线元素,Alu元素等,已得到证据来证实这种观点。这些元素甲基化块开始转录的同时允许宿主基因的转录贯穿他们 。它也被提出,转录衍射的过程本身可能自身刺激了DNA甲基化和,和延伸相关而不是开始的H3K36me3可能包括在DNMTs的生成中。然而,全基因组研究表明,在基因体中对DNA甲基化的还有其他的功能。这项研究表明,外显子比内含子更高度甲基化,发生在外显子内含子边界的甲基化程度的转录可能表明了在调节剪切中甲基化的一个功能。事实上,全基因组核小体定位数据也表明,与内含子相比核小体的占有水平提高了,核小体是DNA甲基化的优先位点。最近的一项研究表明,CT
21、CF结合(可通过DNA甲基化调节,见下面)在RNA聚合酶2(RNAP2)暂停时发生。当RNAP2的运动动力学影响剪接时,这可能使DNA甲基化与剪切相连 。这些研究表明之前没有认识到DNA甲基化在转录中的作用,可能导致替代剪接。因此,看起来最可能是在基因体的DNA甲基化使结果超出在基因内的重复DNA序列的沉默中已经认识到的功能。什么时候是一个基因体的起始位点?人们常常假设TSSs和基因体是两个独立的基因组特征。然而,大多数基因至少有两个TSSs,所以下游的起始位点在上游启动子的转录单位内。这些可供选择的启动子可能是CGIs或非CGI,或者可能是上游非CGI和下游的CGI的联合体,反之亦然。这些可
22、选择的起始位点使表达和甲基化相联系的实验的解释更复杂,因为测量表达的探针经常检测到外放的启动子,但在给定的细胞类型中可能只有一个有活性。下游启动子的甲基化阻止转录,它将从上游启动子体现出来,允许转录的延伸。事实上,DNA甲基化可能对控制可选择的启动子的用途是一个有益的机理。其他调控位点在增强子中的甲基化。增强子和启动子之间的距离是可变的,是发展和功能中控制基因表达的关键。他们大多是弱CpG,他们的甲基化状态被全甲基化谱分析(在植物和哺乳动物中)在一般情况下,这些区域往往有相当变量的甲基化。事实上,在此基础上斯塔德勒等人鉴定了在小鼠基因组的增强子,它们不是100%的甲基化或未甲基化区域,而是称为
23、低甲基化区域(LMRS)。因为一个被给定的胞嘧啶要么是完全甲基化,要么是未甲基化,可变甲基化是这些二进制状态的平均结果。这可能表明,CpG位点是在一个动态的状态,在给定的时间有的甲基化和其他没有甲基化,归因于竞争的甲基化和反甲基化事件。另外,每一个CpG的DNA甲基化状态在细胞分化期间可能不会精确地保持,所以LMR状态可能是由于低效的继承。在不同的T细胞亚群、Schmidl等子集中。在不同的特定基因的增强子内,也发现了大量的有差别的甲基化区域(DMRS)。在功能方面,这项研究表明,这些CpG 位点甲基化可能导致降低增强子在报告者实验中的活性。一个增强子甲基化状态和功能是密切相关的观点得到了在这
24、些区域中调整甲基化的几个观察蛋白的支持。例如,对糖皮质激素受体连接远端调控元件的结合分析表明,CpG能去甲基化,增强子可能因为这个受体的存在而有活性。 25年前saluz等人最先报道了相似的发现。他们证明了重叠的雌二醇的反甲基化和用雌二醇处理的公鸡的糖皮质激素受体结合位点。此外,5羟甲基胞嘧啶和 TET蛋白在这些成分中可以检测到。然而,CpG甲基化和转录因子结合关系是复杂的(见下文),所以我们理解包含在这些调控区域中的弱CpG增强子甲基化的机理之前,我们还有很长的路要走。 绝缘子的甲基化。绝缘子可以定义为阻止增强子和启动子之间相互活动的元素。大多数研究的例子是被CTCF蛋白束缚的DNA序列,C
25、TCF蛋白结合到某一个异构的基序。一个案例是 CFCF结合到IGF2-H19核心的印记,其中, CTCF结合控制增强子和启动子相互影响的存在与否。它已经表明,一个 CTCF结合位点的甲基化在这个CTCF的结合的快轨迹中,所以DNA甲基化具有控制核心的重要作用。最近的研究同样表明 ,CTCF结合到基因编码CD45的外显子上是被DNA甲基化遗传的,从而影响剪切。然而,全球研究小鼠胚胎干细胞和分化细胞表明CTCF结合在弱CpG区域内基本不被甲基化结合位点的影响。但是结合了自身开始的本地去甲基化。因此,可能没有对CTCF位点甲基化影响的普遍规律(这倾向于退化)和结合?在这方面,需要注意的是,有七个潜在
26、的CTCF结合位点在人类的H19启动子,其中只有一个显示了不同的父母起源甲基化。可能的机理被DNA甲基化保持在一个稳定的抑制状态的有活性的CGI启动子的这个机理很好理解,也得到了广泛的认可。甲基化的启动子使核小体在TSS上,甲基化的DNA粘合蛋白加固了TSS,TSS产生了抑制H3K9me3标记和甲基化的DNA粘合蛋白依次生成了组蛋白去乙酰化酶到这个区域。稳定无活性非CGI启动子基因表达状态的甲基化变化的因果关系问题一直备受争议,这个问题尚未得到妥善解决。因为转录因子能很强的结合到DNA甲基化序列上,随后导致这些区域被甲基化。它并不总是清楚甲基化的改变是不是转录的结果,是否他们稳定转录无能状态。
27、非CGI区域甲基化对转录因子的结合靶点的直接影响。事实上,这个事情已经知道一段时间了,MYC结合到它的同源序列直接因为5Mc84的存在受到抑制。然而SP1的结合没有标明那种关系。然而,如转录因子结合位点甲基化,在层粘连蛋白3(LAMB3),相关转录因子2(Runx2)34or Oct4启动子(参考文献),可降低转染实验的基因表达。最近的全基因组的研究表明它们的识别序列上的CpG位点的甲基化强烈地影响转录因子结合。这些实验指明了TSS的CpG甲基化和基因表达之间的因果关系,但这个可能机制仍然存在问题。例如,一个令人费解的现象是我们发现人的ESCs,在0CT4靶点上几乎总是有没有Oct4 束缚。靶
28、位点序列的每侧上有100 bp的DNA甲基化。作为Oct4识别序列不含有CpG序列,它是很难假设一个机制可以解释这种位点附近的CpG甲基化和缺乏结合之间的强烈关系。然而,事实上,在CpG位点侧翼的Oct4结合位点的甲基化的变量比在CGIs上的更多,今后的调查研究的这个邻居可能是富有成效的领域,直到现在在很大程度上被忽略。结论全基因组的方法给了我们一个甲基化的详细的观点,表明超出TSSs以外的甲基化模式远比之前更多欣赏动态。既然我们有了这些模式,我们需要解决它们的潜在作用机制-甲基化位点之外,TSS显然不只是“乘客”而是以前假设(图1).相比于在TSS上的CGIs,TSS是一般非甲基化,似乎大多
29、TSSs甲基化是未了保证长期沉默,基因组CpG废弃区域的协同模式的基因组区更有趣。虽然我们很清楚我们不了解详细的增强子甲基化的机制,绝缘子和基因体影响基因调节蛋白的结合功能,似乎在质疑对发展、分化,甚至细胞活力的重要性。然而,一些物种没有甲基化还能够生存,而哺乳动物需要三个 DNMTs;发现为什么这个问题有助于解释其功能。TET基因的鉴定和TET蛋白对调控区域的定位是5mC动态周转的高度暗示,这与它具有控制功能的基因表达一致。因为关注癌症中不正常CGI甲基化而在很大程度上忽略了人类疾病中的超出CGI启动子以外的甲基化的潜在参与。未来的工作,旨在提供详细的在正常和疾病状态的表观基因组图谱是我们理解许多人类疾病的关键(框3)。如果我们要发展战略和药物去针对表观遗传、针对这些疾病,那么这是非常必要的。