1、可变剪接与蛋白质组多样性及其调节机制可变剪接与蛋白质组多样性及其调节机制武春晓 2001 级博士生 专业:免疫学 导师:马大龙教授前言可变剪接是指从一个 mRNA 前体中通过不同的剪接方式(选择不同的剪接位点组合)产生不同的 mRNA 剪接异构体的过程。可变剪接是调节基因表达和产生蛋白质组多样性的重要机制。剪接过程受多种顺式作用序列和反式作用因子相互作用调节。包括 SR 和 hnRNP 家族蛋白在内的多种剪接因子参与这一调节过程。转录机器(machine)也参与可变剪接的调节。本文将讨论:一.可变剪接与蛋白质组多样性 二. 可变剪接的调节机制。.第一部分 可变剪接与蛋白质组多样性 5据预测,人
2、类基因组可能有约 35,000 个基因,果蝇约 14,000 个,而简单的模式生物线虫约 19,000 个基因。生物的复杂性与其基因组基因数量似乎存在明显差异。原因在蛋白质组。基因重排,RNA 编辑,和可变剪接等机制可以从一个基因产生多种蛋白,从而使蛋白质组中蛋白质的数量超过基因组中基因的数量。其中,从影响的基因数量和生物种类范围来看,可变剪接是扩大蛋白质多样性的最重要的机制 14。一、可变剪接的频率。5,61. 5%。从 1977 年 Walter Gilbert 提出可变剪接概念,1980 年Baltimore 在小鼠 IgM 基因发现第一个可变剪接产生膜型、分泌型IgM,至 2001 年
3、,用经典分子生物学实验的方法研究,一共仅发现了数百种有可变剪接的基因。并推测在高级真核细胞生物约 5的基因有可变剪接。2. 35%60%。高通量的基因组测序和 EST 测序,使得生物信息学的方法研究可变剪接成为可能。EST 来源于完全加工的 mRNA, 它们提供了一个广泛的 mRNA 多样性的样品库。这种多样性可以用计算机分析。最近两年,多个研究小组通过不同的生物信息学的方法,从整个人基因组的水平进行分析,结果一致显示约 35%60%的人基因有可变剪接形式。而且,由于对大多数基因来说,每个基因只测了很少几 EST 甚至没有 EST;EST 不是全长的 mRNA,多位于 mRNA 的 5和 3端
4、;EST 来源于有限的组织和发育阶段;很有可能存在有更多的可变剪接而在现在的 EST 库中没有显示。因此实际可变剪接的频率可能比预测的更高。这还有待于建立新的高通量的分子生物学方法,如生物芯片的方法,以进一步实验验证。二、单个基因可变剪接产生的多样性 5。一个基因可以通过如下几种方式产生多个转录体,如不同的转录起始位点,可变剪接,选择不同的加尾信号位点,RNA 编辑等。可变剪接包括 3 种类型:1.内含子的保留;2.可变外显子的保留或切除;3. 3和 5剪接位点的转移(shift)导致外显子的增长或缩短。可变剪接对蛋白质结构的影响也是多样性的,如多肽链中一个到数百个氨基酸的增加或减少;某功能域
5、的有无;如果可变剪接使读码框架改变,则可能无法有效翻译,mRNA 被监视系统降解。单独一个基因通过可变剪接产生的十几种剪接异构体的现象很常见。有些基因甚至能够产生成千上万种剪接异构体。最突出的例子是果蝇(Drosophila melanogaster ) 的 Dscam 基因,可以通过可变剪接产生 38,000 多种 mRNA 异构体。Dscam 基因编码一个神经元轴突定向受体,它细胞外有一个由 10 个免疫球蛋白重复序列组成的结构域,第 2,3,7 个免疫球蛋白重复序列分别由第 4,6,9 号外显子编码,4 号外显子盒(cassette)有 12 个变异体,6 号外显子有48 个变异体,9
6、号外显子有 33 个变异体,再加上 17 号外显子的 2个变异体。每个成熟的 Dscam mRNA 分别只有一个有 4,6,9,17 号外显子的变异体,由此理论推测 Dscam 基因共有124833238016 剪接异构体。对 Dscam 基因 50 个 cDNA 克隆随机测序发现了 49 种不同的剪接异构体, 说明实际存在的剪接异构体即使没有理论那么多,也至少有上千种。人的 Neurexins, n-Cadherins, calcium-activated potassium channels 等基因也有类似的高度多样的剪接异构体。上述现象非常类似于淋巴细胞 TCR 或免疫球蛋白的胚系基因重
7、排,不同之处在于后者发生在 DNA 水平,前者发生在 RNA 水平。基因重排产生的高度多样抗原受体库可以识别高度复杂的自身和异己抗原。而 Dscam 基因的转录异构体可能有神经系统的发育有关。神经元的定向迁移和相互连接可能是发育过程中最复杂的事件。果蝇约有25,000 个神经元,要使它们生长的轴突准确的,可重复性的到达目的地,使这些神经元准确的连接在一起,必然需要一个特殊的系统。Dscam 基因的 38,000 多种 mRNA 异构体,每个异构体各编码一个不同的受体,每个受体具有识别不同分子定向信号的潜能,从而有能力指导各个生长的轴突到达准确的位置。如果将可变剪接与其它 RNA 加工过程(如
8、RNA 编辑)联系起来共同考虑,基因产物会更复杂。例如,果蝇的 para 基因(voltage-gated action potential sodium channel)有 13 个可变外显子,可编码 1536 种不同的 mRNA,另外,para 的转录体还要经过在 11 个已知位点的 RNA 编辑,这样理论上一共可以产生 1,032,192 个不同的 para 转录异构体。根据受可变剪接影响的基因的概率,以及单个基因可能产生的可变剪接体的数目,足以表明可变剪接对蛋白质组多样性的巨大影响。三、可变剪接的功能和生物学意义 5,111. 可变剪接是在 RNA 水平调控基因表达的机制之一。一个基因
9、通过可变剪接产生多个转录异构体,各个不同的转录异构体编码结构和功能不同的蛋白质,它们分别在细胞/个体分化发育不同阶段,在不同的组织,有各自特异的表达和功能。因此,可变剪接是一种在转录后 RNA 水平调控基因表达的重要机制。目前已知的可变剪接异构体中,只有一小部分明确确定了功能和生物学意义。第一个确定的可变剪接异构体功能是 IgM 基因,其末端最后两个外显子的可变剪接,决定了所编码的膜型/分泌型 IgM 的产生。最著名的例子是果蝇性别决定系统,在此系统中,至少 5 个基因(sxl, tra, msl2, dsx, and fru) 转录体的可变剪接级联反应最终决定了果蝇雄性和雌性性别特征的表达。
10、有些基因,可变剪接造成的蛋白质异构体之间功能上的差异没有被实验检测出来。不过阴性的结果不能代表没有功能差异,只是目前没有检测出来而已。也有很多异构体造成读码框架改变,不能被翻译为蛋白质,而是直接被降解了。真核生物也有 mRNA 监视系统 NMD(nonsensemediated degradation),检测 mRNA 中异常提前出现的终止密码子,一经发现,立即降解异常的 mRNA,防止其翻译。在大多数情况下,检测可变剪接造成的蛋白质异构体之间功能上的差异的实验还没有开展。最近发展的 RNAi 技术,可以适应高通量的从功能基因组水平研究各基因可变剪接异构体的功能的要求。2000 年已经有人将
11、RNAi 技术应用于模式生物线虫的可变剪接异构体的大规模研究上。 (目前已经大量开始用于哺乳动物系统)2.多样性与复杂性可变剪接是从相对简单的基因组提高蛋白质组多样性的重要机制,蛋白质组的多样性与多细胞高等生物的复杂性相适应。从可变剪接涉及的基因分布格局分析,可变剪接多发生在参与信号传导和表达调节等复杂过程的基因上,如受体,信号传导通路(凋亡) ,转录因子等。对个体分化发育和一些关键的细胞生理过程如凋亡、细胞兴奋等的精确调控有重要意义。从可变剪接涉及的基因系统分类分析,可变剪接多发生在免疫和神经等复杂系统。正如 Dscam 基因所示,可变剪接产生的多样性,赋予这些系统精确处理复杂信息相适应的潜
12、力。第二部分可变剪接的调节机制 7可变剪接能够产生惊人的多样性,但我们对其调节机制所知不多。剪接位点的选择受到结合到非剪接位点 RNA 元件的剪接因子的多重调节。参与可变剪接调节的 RNA 元件包括 ESE、ISE、ESS、ISS。剪接因子包括 SR 和 hnRNP 家族蛋白等多种因子。真核生物新生的 mRNA 前体经过 5戴帽,剪接,3加尾等加工成为成熟的 mRNA。在剪接反应过程中,含有内含子和外显子的新生的 mRNA 前体,在剪接体作用下切除内含子,并将外显子依次连接起来的过程。剪接反应由剪接体执行,剪接体包括 5 个小核糖核蛋白复合体 U1,U2,U4,U5 和 U6 snRNPs ,
13、和 50-100 种非 snRNP 蛋白。剪接体通过 RNA-RNA,RNA-蛋白质,蛋白质蛋白质等多重相互作用以精确切除每个内含子和以正确次序连接外显子。为有效剪接,绝大部分内含子需要:1.一个保守的 5剪接位点,A/CAGGURAGU;2.一个分支点序列 BPS , YNYURAY,后面跟着一个多聚嘧啶 Pytract Y10-20;3.一个 3剪接位点 YAG。剪接体的形成是一个多步骤依次进行过程,形成多个中间体:1 E复合体形成:U1snRNA 通过碱基互补识别 5剪接位点,SR 蛋白结合。U2AF65 和 U2AF35 识别多聚嘧啶 Pytract 和 3剪接位点;2 A复合体形成:
14、U2snRNA 通过碱基互补识别分支点序列 BPS;需ATP;3 B复合体形成:U4/U6 _ U5 tri-snRNP 随后与 mRNA 结合;4 C复合体形成:最后,RNA-RNA,RNA-蛋白质相互作用构象改变形成有催化活性的剪接体。(见图 1)一、参与可变剪接的 RNA 顺式作用元件:根据它们所在的位置和作用特点,分为 4 类:1.ESE: exon splicing enhancer 外显子剪接增强子;2.ISE: intron splicing enhancer 内含子剪接增强子;3.ESS: exon splicing silencer 外显子剪接沉默子;4.ISS: intro
15、n splicing silencer 内含子剪接沉默子。ESE 和 ISE 是剪接因子 SR 蛋白结合位点,提高相邻剪接位点的活性。ESS 和 ISS 是 hnRNP 蛋白结合位点,抑制相邻剪接位点的活性。ESE、ISE、ESS、ISS 都是很短的序列基序,一般由 6-10 碱基组成。每一类成员内部之间即有相对的特异性,也有简并性,作用有交叉和冗余。二、SR 蛋白SR 蛋白是一个多细胞生物中高度保守的剪接因子家族,其成员多带有一个或二个拷贝的 RNA 识别基序(RRM) ,后面有一个精氨酸/丝氨酸富含结构域(RS) 。RRM 介导 RNA 结合,并决定各 SR 蛋白的底物特异性;RS 结构域
16、参与蛋白蛋白间相互作用。各 SR 蛋白在固有剪接和可变剪接中有多种作用。其中之一是识别并结 ESE 或 ISE,提高相邻剪接位点的活性。SR 蛋白的底物 ESE/ISE 含有简并性的共有识别序列基序,因此不同 SR 蛋白之间底物有交叉,其特异性取决于 SR 蛋白各自的表达水平、亲和力和与其它蛋白的相互作用。SR-相关蛋白(SRrp)是另一组带有 SR 结构域,并参与剪接反应的蛋白。它们可能有 RRM,如 U1-70K 蛋白,U2AF65/35,SRm160/300KD(两个 SR 相关核基质蛋白) ,和可变剪接调控因子,如 Tra 和 Tra2。SR 与 SRrp 都可以增强相邻弱(subop
17、timal)剪接位点的活性。图 1。 三、hnRNP 蛋白hnRNP 蛋白是一组由多种 RNA 结合蛋白组成的具有多种功能的多肽家族。其成员带有多种不同形式的 RNA 结合基序和富含甘氨酸结构域。富含甘氨酸结构域可能参与蛋白蛋白相互作用。hnRNP A、B、C 家族的蛋白与新生的 mRNA 前体组装成 40S 的结构。多种hnRNP 蛋白始终伴随 mRNA,影响 mRNA 的剪接,出核转运,甚至在胞浆的翻译,RNA 定位,和降解。四、SR 蛋白和 hnRNP A/B 蛋白在剪接位点选择中的拮抗作用单个 SR 蛋白在 5位点的选择使用上有相似作用:增加蛋白浓度,结果将在 pre-mRNA 的两个
18、或多个 5可变剪接位点中促进选择使用内含子近端的 5位点。值得注意的是,hnRNP A/B 蛋白作用正好相反:它们促进选择内含子远端的 5位点。不同 SR 蛋白个体有时可能作用相反。如 SF2/ASF 和 SC35 在 -tropomyosin 可变剪接调节中的拮抗作用。SF2/ASF 与 hnRNP A1 的功能拮抗作用基于它们对 mRNA 前体的竞争性结合。用双 5剪接位点 mRNA 前体为底物实验,表明 SF2/ASF 干扰 hnRNPA1 对双 5位点的结合,同时增高了 U1 snRNP 的对两个5位点的结合,在此条件下近内含子的 5位点被选择剪接(与3位点最近) 。相反,hnRNPA
19、1 非选择性的结合到此 mRNA 前体,同时干扰了 U1 snRNP 的对两个 5位点的结合,结果是选择了远端的5位点。SR 蛋白和 hnRNP A/B 蛋白一般不需要识别特异性的靶序列,就可发挥对可变剪接位点的选择作用。但它们要发挥增强子或沉默子的作用,就必须结合到特异性的位点。在增强子依赖性剪接中,SR 家族蛋白结合到 ESE,就能够促进招募 U2AF 到多聚嘧啶序列PYtract,而活化邻近的 3剪接位点。ESE 结合的 SR 蛋白通过RS 结构域介导与 U2AF35 亚基的相互作用参与这一活性。或者,ESE结合 SR 蛋白可能与剪接共活化因子 SRm160 作用,通过一系列反应招募 U
20、2AF65 到多聚嘧啶序列 PYtract。最后,剪接增强子 ESE 可以拮抗由识别外显子剪接沉默子 ESS 的 hnRNP 蛋白的介导的抑制作用。例如,在 HIV-1 tat 基因,其外显子 3 含有 SF2/ASF 和 SC35-依赖性 ESE,和一个结合 hnRNP A1 的沉默子 ESS3。hnRNP A1 结合ESS3 后可以引发 hnRNP A1 与外显子上游区域的结合。ESE 结合的 SF2/ASF,可阻止此作用;而 SC35 不能拮抗 hnRNP A1 的作用。因此,此 ESS3 抑制 SC35,而非 SF2/ASF 依赖的剪接。SR 和 hnRNP A/B 蛋白的相对浓度,也
21、是影响组织和发育特异性可变剪接格局的重要调节因素。在不同的组织,SR 蛋白的总浓度和个体浓度不同,特别是 SF2/ASF 和它的拮抗剂 hnRNP A1 的分子摩尔比更是不同。另外,蛋白磷酸化可调节 SR 和 hnRNP A/B 蛋白活性。提示可变剪接受细胞外信号的调节。SR 蛋白家族成员功能有重叠和冗余,但各成员也有一定特异性。五、多聚嘧啶序列结合蛋白(PTB)PTB,又称 hnRNP1,识别 3剪接位点前的多聚嘧啶序列,有抑制剪接作用。机制可能是与 U2AF 竞争性结合多聚嘧啶序列。PTB 自身就有 3 个剪接变异体 PTB1,2,3,各自在可变剪接中有不同的作用。六、CELF 蛋白家族C
22、ELF 家族的蛋白(CUG-BP 和 ETR3-like factors) 参与细胞特异性和发育调节的可变剪接。这些 RNA 结合蛋白包含 3 个 RRM 和一个功能未知的接头。CELF3 和 CELF5 仅在脑组织表达;CUG-BP,ETR-3和 CELF4 表达较广泛,但在脑组织和横纹肌表达受发育调控。CELF蛋白结合到 cTNT 基因的肌肉特异性增强子 MSE,并促进受发育调节的外显子 5 的保留(inclusion) 。七、组织特异性因子一般性剪接因子之间的拮抗作用,如 SR 蛋白和 hnRNP 蛋白,是造成多种的可变剪接形式的原因之一。而组织和发育特异性调节的剪接因子,也在可变剪接的
23、调节中也发挥着重要作用。但寻找这种剪接因子的进展非常缓慢。在神经系统可变剪接是一种普遍现象。NOVA1 是一种带有 KH RNA 结合结构域(hnRNP K homology)的神经元特异性 RNA 结合蛋白,它调节神经元特异性可变剪接,是神经元的功能活性必需的因子。NOVA1 识别 GlyR2 pre-mRNA 可变外显子 3A 相邻的一个内含子位点,促使该外显子的保留。该活性被另一个神经元富含的剪接因子brPTB 拮抗。brPTB 是 PTB 的一种异构体,它可以诱导 hnRNP 复合体的组装(packing) ,封闭了可变外显子 3A 的剪接体识别位点,使之被切除。同样 brPTB 介导
24、了 c-src pre-mRNA N1 外显子的神经元特异性剪接。八、多重调控即使是一个剪接位点的选择,也往往是剪接信号和多种调节信号ESE,ISE, ESS,ISS 等及相应的多种剪接因子组成的复合体的共同作用的结果。而不是由单个的基因特异性的因子所决定。这种机制非常类似于基因的表达调控,其优点在于:1.特异性: 剪接信号和多种调节信号序列都很短,且有简并性,单个信号的一级结构的信息量很少,而剪接复合体多种成分之间弱相互作用的叠加可以产生特异性的识别。2.敏感性:不同细胞剪接复合体某个成分发生改变,同时其它成分保持稳定,则可以产生敏感的反应。九、转录在可变剪接中的作用 10转录和 mRNA
25、前体的加工、转运、降解并不是相互独立的过程。RNA 聚合酶(POL)的延伸过程与 mRNA 前体的三个加工过程(戴帽、剪接、加尾)在时间和空间上高度协同。POL靶基因的转录活化将招募 SR 蛋白到转录区域。RNA POLC 末端结构域(CTD)介导 mRNA的合成与剪接的偶联作用。抗 RNA POL或 CTD 的抗体可以免疫共沉淀 SR 蛋白,并可在体内和体外阻断 mRNA 的剪接加工。无 CTD 或CTD 截短的 RNA POL产生的转录本不能被有效的剪接。调节基因表达的启动子结构也影响可变剪接。例如,有人将受不同的启动子启动的,带有可变剪接外显子 EDI 的 -globin/fibrone
26、ctin 微基因转染人细胞系,发现在 FN 或 CMV 启动子作用下,EDI 的保留比 -globin 启动子高 10 倍左右。EDI 带有一个 ESE,是 SR 蛋白 SF2/ASF 和 9G8 的靶点。SF2/ASF 和 9G8 过表达促进 EDI 的保留,但此作用受启动子的调节。十、转录和可变剪接偶联的分子模型 7,101. 启动子模型。启动子或增强子可能通过与之结合的转录因子来招募 SR 家族蛋白。例如:P52,一种转录辅助活化因子,可以直接于SF2/ASF 作用而促进 mRNA 前体剪接。另外一些蛋白可能有双重功能:即参与转录,也参与剪接。如人转录活化因子 PGC-1, 它可以促进一
27、个可变外显子的保留,但此作用只有在它被招募到与基因启动子相互作用的转录复合体时才有这种作用。当启动子突变,招募 PGC1的转录因子不能结合到 DNA 时,PGC1 就没有这种效应。其它转录因子,如 WT1 和 SAF-B,也有偶联剪接的作用。Prp40, ESS1,CA150 三用。一组称为 SR 样 CTG 结合因子(SCAF) ,与 SR 蛋白相似,带有RS 结构域和 RNA 结合结构域,有人推测它们也可能具有偶联剪接和转录的功能。2。延伸速率模型。启动子替换法是一种有效的研究转录对可变剪接的调节作用的方法。然而自然界不存在启动子替换现象。另一种方法是用不同的转录因子作用于同一个启动子,以
28、研究转录和可变剪接的偶联机制。最近,有报道 SV40T-Ag 和 VP16 两种转录因子对可变剪接有截然相反的作用。一方面,SV40T-Ag 降低 RNA POL的延伸活性,增加了 FN EDI 外显子的保留。另一方面,VP16 促进 RNA POL的延伸活性,抑制了 EDI 的保留。这就是延伸速率模型的基础,即 RNA POL延伸速度减慢,或中间停顿,则有利于可变剪接外显子上游的内含子的切除,一般该内含子 3剪接位点效应较弱。等RNA POL继续前进,剪接体只能切除下游的内含子,使得可变外显子保留。如果 RNA POL延伸速度快,或没有中间停顿,则两个 3 剪接位点之间竞争,下游的强 3 剪
29、接位点效应更强,导致了可变外显子的去除。另外,延伸速率对 RNA 二级结构的作用,或 RNA POL停止位点迟缓 ESE,ESS 转录的作用,也影响可变剪接。结束语:发现新的可变剪接异构体,确定每个异构体的独特功能和生物学意义,并阐明其调节机制,是功能基因组时代研究的一个重要领域。在这一领域研究中,除利用经典的分子生物学技术外,还需建立新的高通量的技术,如生物芯片技术,RNAi 技术等,并要与生物信息学技术紧密结合,同时需要细胞生物学、生物化学、临床与病理学、免疫学等多学科的协作,才有可能对这一重要的生命现象有所了解。参考文献1 Ewing, B. and Green, P. (2000) A
30、nalysis of expressed sequence tags indicates 35,000 human genes. Nat. Genet. 25, 2322342. Adams, M.D. et al. The genome sequence of Drosophila melanogaster. Science 287, 21852195 (2000).3. The C. elegans Sequencing Consortium. Genome sequence of the nematode C.4 Pennisi, E. Human genome project: and
31、 the gene number is.? Science 288, 11461147 (2000).5 Brenton R. Graveley Alternative splicing: increasing diversity in the proteomic world. TRENDS in Genetics Vol.17 No.2 February 20016. Barmak Modrek & Christopher Lee. A genomic view of alternative splicing nature genetics ? volume 30,13-19 ?Januar
32、y 20027. Javier F. Cceres and Alberto R. Kornblihtt Alternative splicing: multiple controlmechanisms and involvement in human disease TRENDS in Genetics Vol.18 No.4,186-193 April 2002 8 Michelle L Hastings and Adrian R Krainer Pre-mRNA splicing in the new millennium. Current Opinion in Cell Biology
33、2001, 13:3023099 Douglas L. Black Protein Diversity from Alternative Splicing: A Challenge for Bioinformatics and Post-Genome Biology. Cell, Vol. 103, 367370, October 27, 2000,10 Aaron C. Goldstrohm, Arno L. Greenleaf, Mariano A. Garcia-Blanco . Co-transcriptional splicing of pre-messenger RNAs: considerations for the mechanism of alternative splicing.Gene 277 (2001) 314711 Malka Nissim-Rafinia and Batsheva Kerem TRENDS in Genetics Vol.18 No.3 March 2002*JimiSoft: Unregistered Software ONLY Convert Part Of File! Read Help To Know How To Register.*