1、测序技术的前世今生 测序技术的发展历程 第一代测序技术 ( Sanger 测序 ) 第一代 DNA 测序技术用的是 1975 年由桑格( Sanger)和考尔森( Coulson)开创的链终止法或者是 1976-1977 年由马克西姆( Maxam)和吉尔伯特( Gilbert)发明的化学法(链降解) ,在2001 年,完成的首个人类基因组图谱就是以改进了的 Sanger 法为其测序基础 。 原理: ddNTP 的 3无 羟基,其在 DNA 的合成过程中不能形成磷酸二酯键,因此可以用来 中断 DNA合成反应 ,在 4个 DNA合成反应体系中分别加入一定比例带有 放射性同位素标记 的 ddNTP
2、(分为: ddATP,ddCTP,ddGTP 和 ddTTP),通过凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的 DNA 序列。 第二代测序技术 (NGS) 第一代测序技术的主要特点是测序读长可达 1000bp,准确性高达 99.999%,但其测序 成本高,通量低 等方面的缺点,严重影响了其真正大规模的应用。经过不断的技术开发和改进,以Roche 公司的 454 技术、 illumina 公司的 Solexa、 Hiseq 技术和 ABI 公司的 Solid 技术 为标记的第二代测序技术诞生了。 其 大大降低了测序成本的同时,还大幅提高了测序速度,并且保持了高准确性,以前完成一个人
3、类基因组的测序 需要 3 年时间 ,而使用二代测序技术则仅仅 需要 1 周 ,但在序列读长方面比起第一代测序技术则要短很多, 大多只有 100bp-150bp。 1. illumina Illumina公司的 Solexa 和 Hiseq是目前全球使用量最大的第二代测序机器,占全球 75%以上,以 HiSeq 系列为主,技术核心原理都是边合成边测序的方法,测序过程主要分为以下 4 步: 1)构建 DNA 测序文库 DNA 分子用超声波打断成 200bp-500bp 长的序列片段 ,并在两端添加上不同的接头 。 2)测序流动槽( flowcell) 结构: Flowcell 是测序的载体,课 吸
4、附 DNA 文库, 每个 flowcell 有 8 条 lane, 每个 lane 有 2行 column,每行 column 有 60 个 tail,每个 tail 经 CCD 镜头课捕获荧光信号。 3) 成簇( cluster) NGS 的 核心 技术特点, 目的在于实现将单一碱基的信号强度进行放大,以达到 CCD 镜头摄取荧光的信号要求 。 大体原理网上都可查到,在此解答 2 大难理解之处:一 可逆终止荧光 dNTP(Illumina 测序核心技术 ) 荧光修饰 dNTP 可逆合成终止 ( 包括 用 叠氮基团 即起到了可逆终止作用 和用不同荧光集团区别碱基信号的功能 ) ,是 Illum
5、ina 测序的最核心技术。 1. 上图 是修饰过的 dCTP 分子结构式,在核苷酸糖基的 3位连一个叠氮基团( 红色基团 )。这个叠氮基团在链延伸的时侯起到了 阻止聚合 的作用 (理解见下图 DNA 复制时的 5和 3的示意图,下一个碱基合上时是:下一个核苷酸的 5P 连接到上一个核苷酸的 3OH,故如果下一个核苷酸的3带有叠氮基团而非自然状态下的 OH 时,下一个核苷酸就无法合上。) 。2. 叠氮基团有一个特性,就是遇到巯基试剂(例如:二巯基丙醇),叠氮基团会发生断裂,并在原来的位置留下一个羟基 因此在荧光照相之后可以借此回复 3的 -OH 状态,以供下一个碱基合上 。 3. 在碱基上,通过
6、连接臂( 蓝色基团 )连接一个荧光基团。 4 种 dNTP 分别连 4 种不同颜色的荧光基团。测序时, 通过识别荧光基团的颜色,就可以判断原来的碱基是哪一种 。 在 dNTP被添加到合成链上后,所有未使用的游离 dNTP 和 DNA 聚合酶会被洗脱掉。接着,再加入激发荧光所需的缓冲液,用激光激发荧光信号,并有光学设备完成荧光信号的记录,最后利用计算机分析将光学信号转化为测序碱基。荧光信号记录完成后,再加入化学试剂 TCEP(Tris (2-carboxyethyl) phosphine,三 (2-羧乙基 )膦 )淬灭荧光信号 ,并 用 巯基试剂 去除 3位阻断的叠氮基团 ,以便能进行下一轮的测
7、序反应。 注:每一步试剂具有极高的处理效率,因为 在要重复几百次的反应中 ( 3040x 测序 ) ,每步的得率差一点,最终的结果就会差许多,所谓的指数放大效应。 缺点 1) Prephasing: 在边合成边测序过程中,每个循环应该合成一个碱基,因为某些原因,会一个循环合成二个或更多的碱基,这种多合成碱基的情况就称为 Prephasing。 叠氮基团在常温下 不是很稳定,尤其是 3位的叠氮基脱落, 是导致测序时的 Prephase 的主要原因。Prephasing 越严重,则测长越短 (因为多个 1 个循环只记录 1 个碱基,如果 1 个循环中同时合上了多个碱基,则势必相对长度缩短) 。 P
8、rephasing 占了 Illumina 测序长度中几乎一半的限制性因素。 ( 叠氮基团在 常温下 不是很稳定 , Illumina 的测序 SBS 试剂都要低温保存。 Illumina 的新型测序仪( HiSeq/NextSeq/MiSeq 等)的内部还内置了一个小冰箱,来给试剂降温。 ) 2) Phasing: 在边合成边测序过程中,每个循环应该合成一个碱基,因为某些原因,会一个循环没有合成碱基,这种少合成碱基的情况就称为 Phasing。用修饰的 dNTP 代替天然 dNTP 来进行边合成边测序的工作,就会遇到 天然聚合酶对修饰 dNTP 的聚合效率低 的问题。 Phasing 越严重
9、,则测长越短。 Phasing 是除 Prephasing 外的另一个重要长限制因素。(另外还有的两个测长限制因素是:桥式 PCR 对 文库长度 的限制、和激光会打断 DNA 链 。 ( 天然聚合酶对修饰 dNTP 的聚合效率低 : Illumina 用基因工程定向进化的方法不断地改进其测序聚合酶,以提高酶对修饰 dNTP 的合成效率。现在 Illumina 的试剂已经改到V4 版。 Illumina 的每次酶改版,都带来测序能力的大幅提升。 ) 二 化学方法选择性、定点切断特定 DNA 链 在 Illumina 的测序过程中,无论是单端还是双端测序,都会用到特异选择性链切断的过程。其中单端测
10、序的要切断 1 次,双端测序中的两条链要先后各切断 1 次(共 2 次)。 单端测序 ( 35cycles): 在完成桥式 PCR 后,把 Read 1 测序引物杂交到模板上之前 , 需要切断桥式 PCR 所形成的双链中的一条,只留下单一的模板链,以作为模板,供下面的边合成、边测序之用。 方法: 高碘酸希夫 反应 :过碘酸把糖类相邻两个碳上的羟基氧化成醛基 。原理: P5 最后一个碱基 A 的糖基的第 4 和第 5 位的 C 分别加入一个 -OH(二羟基 -diol,即构成 P5-diol-OH),桥式 PCR 后 用高碘酸钠溶液处理,高碘酸根快速、精确地将二个醇基之间的那个碳碳键切断, 洗掉
11、 P5 相接的 那条 DNA 链 ,当然,最后一个碱基 A 也被洗掉了,如下图: 双端测序 第 一 条链切断 ( 在上图中的第 2 步 ): 第一次 桥式 PCR 之后 ( 25-28cycles) 和单端测序中的那次切断的目标一样,是要留下双链中的一条,以作为 read 1 的测序模板 。 方法: 通过在 P5 中 加入一个 U 碱基 (具体序列信息待查) ,而后在要切断这链链的时侯,用 USER 酶( Uracil Specific Excision Reagent,尿嘧啶链特定切断试剂)来切一下 。 USER (尿嘧啶 -特异性切除试剂)酶在尿嘧啶位置产生一个单核苷酸缺口。 USER 酶
12、是尿嘧啶 DNA 糖基化酶( UDG)和 DNA 糖基化酶 -裂解酶 Endo VIII 的混合物。 UDG 催化尿嘧啶碱基的切割,形成一个脱碱基(脱嘧啶)位点,但保持磷酸二酯骨架结构完整。Endo VIII 的裂解酶活力使脱碱基位点 3 和 5 端的磷酸二酯键断裂,释放无碱基的脱氧核糖。 第 二 次切断 (上图中的 7) : 方法: “甲酰胺基嘧啶糖苷酶, FPG”对 “8-氧鸟嘌吟糖苷, 8-oxo-G”的选择性切断作用 。 P7 的 3末端最后一个 G 被修饰为 8-oxoguanine, 是 FPG 的作用 位点 , Fpg 就把 “8-oxo-G”碱基 切掉 (步骤 A) ,并把那条
13、链给切断 (步骤 B),剩下的结构是 P7 的 3末端有一个与上一个核苷酸的 3-OH 相连的磷酸基以及一个 不完整糖基的磷酸基 ,也就是上图中 ,其 5磷酸基团连接着上一个核苷酸的 3端,所以此结构相当于 Blocked P7 接头的 3 ,起到了阻止链延伸的作用 。 在后面 重新长簇的时候,会重新利用这个接头,所以 要恢复 3端羟基, 此时 再用 “脱嘌呤嘧啶内切核酸酶, AP-endonuclease”把带不完整糖基的那个磷酸基切掉 (至此,彻底切掉了 P7 的最后一个尿嘧啶 G) , 3端羟基就露出来了 (步骤 C) 。 4)测序 边合成边测序 , 向反应体系中同时添加 DNA 聚合酶
14、、接头引物和带有碱基特异荧光标记的4 中 dNTP( 具体见上文 )。这些 dNTP 的 3-OH 被 叠氮基团 保护,因而每次只能添加一个 dNTP,这就确保了在测序过程中,一次只会被添加一个碱基。同时在 dNTP 被添加到合成链上后,所有未使用的游离 dNTP 和 DNA 聚合酶会被洗脱掉。接着,再加入激发荧光所需的缓冲液,用激光激发荧光信号,并有光学设备完成荧光信号的记录,最后利用计算机分析将光学信号转化为测序碱基。这样荧光信号记录完成后,再加入化学试剂淬灭荧光信号并去除 dNTP 3-OH 保护基团,以便能进行下一轮的测序反应。 30x-50x 测序深度对于 Hisq 系列需要 100
15、 小时,而对于 2017 年初最新推出的 NovaSeq 系列则只需要 40 个小时 ! 下面是 测序量比较(双流动槽为例,如为单流动槽则测序量减少为下表的一半,时间不变) 一次测序的数据总产量的单位 Gb,不是计算机字节,而是测序碱基的数目( Giga base) 第三代测序技术 单分子测序 , 以 PacBio 公司的 SMRT 和 Oxford Nanopore Technologies 纳米孔单分子测序技术 为主 ,最大的特点就是单分子测序,测序过程无需进行 PCR扩增,超长读长 , 平均达到 10Kb-15Kb,是二代测序技术的 100 倍以上 。 基本原理是: 边合成边测序 的原则
16、 , DNA 聚合酶和模板结合 , 4 种碱基( 荧光标记 dNTP) ,在碱基配对阶段发出不同光 ,根据 光的波长与峰值可判断进入的碱基类型 。读长主要跟酶的活性保持有关。 SMRT 技术的测序速度很快,每秒约 10 个 dNTP。但是,同时其测序错误率比较高(这几乎是 目前单分子测序技术的通病),达到 10%-15%,而且以缺失序列和错位居多。 但 可 通过多次测序来进行有效的纠错。 PacBio SMRT 技术除了能够检测普通的碱基之外,还可以通过检测相邻两个碱基之间的测序时间,来检测碱基的表观修饰情况,如甲基化。因为假设某个碱基存在表观修饰,则通过聚合酶时的速度会减慢,那么相邻两峰之间的距离会增大,我们可以通过这个时间上的差异来检测表观甲基化修饰等信息。 Oxford Nanopore Oxford Nanopore 的 MinION 是另一个比较受关注的第三代测序仪,俗称 U 盘测序仪 。是基于 电信号 而不是光信号的测序技术! 技术关键是 特殊的 纳米孔,孔内共价结合有分子接头。当 DNA 碱基通过纳米孔时,它们使电荷发生变化,从而短暂地影响流过纳米孔的电流强度(每种碱基所影响的电流变化幅度是不同的),灵敏的电子设备检测到这些变化从而鉴定所通过的碱基 , 理论上,它也能直接测序 RNA。 。 附: