1、,在2002年4月,美国科学杂志 ,登载了一篇长达14页的论文尤其引人注目水稻(籼稻)基因组的工作框架序列图。 2004年12月,水稻基因组“精细图”全部完成,2004年12月10日,中国科学家在世界上率先完成的家蚕基因组“框架图”及基因组生物学分析成果在世界科学类权威的学术期刊Science杂志上发表。,2009年12月13日,Nature杂志刊登了由深圳华大基因研究院领衔完成的大熊猫基因测序。,DNA测序技术的发展历史与最新进展,主讲人:金瑞营,第一代DNA测序技术三种测序方法的原理,第二代DNA测序技术三个测序平台的工作原理及操作步骤,第三代DNA测序技术单分子测序的特点及应用前景,第一
2、代DNA测序技术,成熟的DNA测序技术始于20世纪70年代中期。 1977年Maxam 和Gilbert报道了通过化学降解测定DNA序列的方法。 同一时期, Sanger发明了双脱氧链终止法 20世纪90年代初出现的荧光自动测序技术将DNA测序带入自动化测序的时代。这些技术统称为第一代DNA测序技术。,化学降解法,在该方法中,一个末端被放射性标记的DNA片段在5组互相独立的化学反应中分别被部分降解,其中每一组反应特异地针对某种碱基。因此生成5组放射性标记的分子,每组混合物中均含有长短不一的DNA分子,其长度取决于该组反应所针对的碱基在原DNA片段上的位置。最后,各组混合物通过聚丙烯酰胺凝胶电泳
3、进行分离,再通过放射自显影来检测末端标记的分子。,双脱氧链终止法,原理:核酸模板在DNA聚合酶、引物、4种单脱氧核苷三磷酸( dNTP,其中的一种用放射性P32标记)存在条件下复制时,在四管反应系统中分别按比例引入4种双脱氧核苷三磷酸( ddNTP) ,因为双脱氧核苷没有3 -OH,所以只要双脱氧核苷掺入链的末端,该链就停止延长,若链端掺入单脱氧核苷,链就可以继续延长。如此每管反应体系中便合成以各自的双脱氧碱基为3端的一系列长度不等的核酸片段。反应终止后,分4个泳道进行凝胶电泳,分离长短不一的核酸片段,长度相邻的片段相差一个碱基。经过放射自显影后,根据片段3端的双脱氧核苷,便可依次阅读合成片段
4、的碱基排列顺序。,荧光自动测序技术,荧光自动测序技术基于Sanger原理,用荧光标记代替同位素标记,并用成像系统自动检测,从而大大提高了DNA测序的速度和准确性。,第二代DNA测序技术,罗氏454 公司的GS FLX测序平台,Illumina 公司的Solexa Genome Analyzer测序平台,AB I公司的SOLiD测序平台,454测序技术具体步骤,文库准备:将基因组DNA 打碎成300 -800 bp长的片段(若是snRNA或PCR产物可以直接进入下一步) ,在单链DNA的3端和5 端分别连上不同的接头。连接:带有接头的单链DNA 被固定在DNA 捕获磁珠上。每一个磁珠携带一个单链
5、DNA片段。随后扩增试剂将磁珠乳化,形成油包水的混合物,这样就形成了许多只包含一个磁珠和一个独特片段的微反应器。,扩增:每个独特的片段在自己的微反应器里进行独立的扩增(乳液PCR, emulsion PCR) ,从而排除了其它序列的竞争。整个DNA 片段文库的扩增平行进行。对于每一个片段而言,扩增产生几百万个相同的拷贝。乳液PCR终止后,扩增的片段仍然结合在磁珠上。,测序:携带DNA 的捕获磁珠被放入PTP板中进行测序。PTP孔的直径(29m)只能容纳一个磁珠(20m) 。放置在4个单独的试剂瓶里的4种碱基,依照T、A、C、G的顺序依次循环进入PTP板,每次只进入一个碱基。如果发生碱基配对,就
6、会释放一个焦磷酸。这个焦磷酸在ATP 硫酸化酶和荧光素酶的作用下,释放出光信号,并实时地被仪器配置的高灵敏度CCD捕获到。有一个碱基和测序模板进行配对,就会捕获到一分子的光信号;由此一一对应,就可以准确、快速地确定待测模板的碱基序列。,454测序技术的特点,速度快 一个测序反应耗时10 h,获得4 6 亿个碱基对。比传统的Sanger 测序的方法快100 倍; 读长长 单条序列的读长平均可达到450 bp; 通量高 每个反应可以得到超过100万个序列读长; 准确度高 读长超过400 bp 时,单一读长的准确性可以超过99% ; 可以进行Pair-End 测序研究。,454测序仪技术应用简介,S
7、olexa测序技术的原理,基本原理是将基因组DNA打碎成约100 - 200个碱基的小片段,在片段的两个末端加上接头( adap ter) 。将DNA片段变成单链后通过接头与芯片表面的引物碱基互补而使一端被固定在芯片上。另外一端随机和附近的另外一个引物互补,也被固定住,形成桥状结构。通过30轮扩增反应,每个单分子被扩增大约1 000倍,成为单克隆的DNA簇,随后将DNA簇线性化。,在下一步合成反应中,加入改造过的DNA聚合酶和带有4种荧光标记的dNTP。在DNA合成时,每一个核苷酸加到引物末端时都会释放出焦磷酸盐,激发生物发光蛋白发出荧光。用激光扫描反应板表面,在读取每条模板序列第一轮反应所聚
8、合上去的核苷酸种类后,将这些荧光基团化学切割,恢复3端黏性,随后添加第二个核苷酸。如此重复,直到每条模板序列都完全被聚合为双链。这样,统计每轮收集到的荧光信号结果,就可以得知每个模板DNA 片段的序列。,Solexa测序技术路线:,Solexa测序技术的特点,通量高。目前一台机器在两周内最高可产出360G 的数据; 准确率高。98. 5% ,同时也有效地解决了多 聚重复序列的读取问题; 成本低。低于传统Sanger 测序技术成本的1% ; DNA 序列的读取长度不断增加,当前单条序列读长可达到150 bp; 可以进行Pair-end( PE) 双向测序,PE 文库插入片段大小范围可由150 b
9、p 到10 kb。正确选择插入片段长度有利于高重复序列含量基因组的组装,这进一步扩展了该技术的应用范围。,SOLiD测序技术路线,SOLiD测序技术的具体步骤,文库准备:SOL iD系统能支持两种测序模板:片段文库( fragment library) 或配对末端文库(mate2paired library) 。片段文库就是将基因组DNA打断,两头加上接头,制成文库。配对末端文库是将基因组DNA打断后,与中间接头连接,环化,然后用EcoP15酶切,使中间接头两端各有27 bp的碱基,最后加上两端的接头,形成文库。,扩增:SOLiD用的是与454技术类似的乳液PCR对要测序的片段进行扩增。在微反
10、应器中加入测序模板、PCR反应元件、微珠和引物,进行乳液PCR ( emulsion PCR) 。PCR反应结束后,磁珠表面就固定有拷贝数目巨大的同一DNA模板的扩增产物。,微珠与玻片连接:乳液PCR完成之后,变性模板,富集带有延伸模板的微珠,微珠上的模板经过修饰,可以与玻片共价结合。SOL iD系统最大的优点就是每张玻片能容纳更高密度的微珠,在同一系统中轻松实现更高的通量。含有DNA模板的磁珠共价结合在SOLiD玻片表面, SOL iD测序反应就在SOL iD玻片表面进行。每个磁珠经SOL iD 测序后得到一条序列。,连接测序:SOLiD连接反应的底物是8碱基单链荧光探针混合物。探针的5端用
11、4种颜色的荧光标记,探针3端第1、2位碱基是ATCG 4种碱基中的任何两种碱基组成的碱基对,共16 种碱基对,因此每种颜色对应着4种碱基对。3 - 5位是随机的3个碱基。6 - 8位是可以和任何碱基配对的特殊碱基。单向SOL iD测序包括5轮测序反应,每轮测序反应含有多次连接反应,得到原始颜色序列。,SOL iD序列分析软件根据“双碱基编码矩阵”把碱基序列转换成颜色编码序列,然后与SOLiD 原始颜色序列进行比较。由于双碱基编码规则中一种颜色对应4种碱基对,前面碱基对的第二个碱基是后面碱基对的第一个碱基,所以一个错误颜色编码就会引起连锁的解码错误,改变错误颜色编码之后的所有碱基。SOL iD序
12、列分析软件可以对测序错误进行自动校正,最后“解码”成原始序列。因为SOL iD系统采用了双碱基编码技术,在测序过程中对每个碱基判读两遍,从而减少原始数据错误,提供内在的校对功能, 得到的原始碱基数据的准确度大于99.94% ,而在15X 覆盖率时的准确度可以达到99.999% ,是目前新一代基因分析技术中准确度最高的,SOLiD测序技术的特点,可制备Mate-paired 文库测序,插入片段范围600 bp 10 kb; 通量高,每台SOLiDTM 4 System 测序仪在15 天内能够获得100G的数据量; 采用Primer reset 方式,保证了较低的噪音,失败的Round 可以重做;
13、 测序时采用连接反应,稳定性高,准确性高,有效地解决了多聚核苷酸序列困难读取的问题; 每个DNA 碱基检测2次,这增加了序列读取的准确性;2-base encoding 可以用来鉴别SNP。,三种第二代测序技术对比,第三代DNA测序技术,第二代测序技术在制备测序文库的时候都需要经过PCR扩增,而这一PCR过程可能引入突变或者改变样品中核酸分子的比例关系。另外,第二代测序的读长普遍偏短,在进行数据拼接时会遇到麻烦。为了克服这样的缺点,业界发展出了以单分子实时测序和纳米孔为标志的第三代测序技术。,1. Helicos公司 Helicos公司的Heliscope单分子测序仪基于边合成边测序的思想,将
14、待测序列随机打断成小片段并在3末端加上Poly(A),用末端转移酶在接头末端加上Cy3荧光标记。用小片段与表面带有寡聚Poly(T)的平板杂交。然后,加入DNA聚合酶和Cy5荧光标记的dNTP进行DNA合成反应,每一轮反应加一种dNTP。将未参与合成的dNTP和DNA聚合酶洗脱,检测上一步记录的杂交位置上是否有荧光信号,如果有则说明该位置上结合了所加入的这种dNTP。用化学试剂去掉荧光标记,以便进行下一轮反应。经过不断地重复合成、洗脱、成像、淬灭过程完成测序。Heliscope的读取长度约为30-35 nt,每个循环的数据产出量为21-28 Gb。,2. Pacific Biosciences
15、公司 Pacific Biosciences公司的SMRT技术基于边合成边测序的思想,以SMRT芯片为测序载体进行测序反应。SMRT芯片是一种带有很多ZMW(zero-mode waveguides)孔的厚度为100 nm的金属片。将DNA聚合酶、待测序列和不同荧光标记的dNTP放入ZMW孔的底部,进行合成反应。与其他技术不同的是,荧光标记的位置是磷酸基团而不是碱基。当一个dNTP被添加到合成链上的同时,它会进入ZMW孔的荧光信号检测区并在激光束的激发下发出荧光,根据荧光的种类就可以判定dNTP的种类。此外由于dNTP在荧光信号检测区停留的时间(毫秒级)与它进入和离开的时间( 微秒级) 相比会
16、很长,所以信号强度会很大。其它未参与合成的dNTP由于没进入荧光型号检测区而不会发出荧光。在下一个dNTP被添加到合成链之前,这个dNTP的磷酸基团会被氟聚合物(fluoropolymer)切割并释放,荧光分子离开荧光信号检测区。,3. Oxford Nanopore Technologies公司 Oxford Nanopore Technologies公司正在研究的纳米孔单分子技术是一种基于电信号测序的技术。他们设计了一种以-溶血素为材料制作的纳米孔,在孔内共价结合有分子接头环糊精。用核酸外切酶切割ssDNA时,被切下来的单个碱基会落入纳米孔,并和纳米孔内的环糊精相互作用,短暂地影响流过纳米
17、孔的电流强度,这种电流强度的变化幅度就成为每种碱基的特征。,中国机构主要承担和参与已完成的动植物基因组测序项目,物种 国内主要承担机构人 中国科学院华大基因研究中心等 水稻 中国科学院华大基因研究中心等家蚕 西南农业大学、中国科学院北京基因组研究所和 华大基因研究中心等家鸡 中国科学院北京基因组研究所和华大基因研究中心等人 深圳华大研究院等血吸虫 南方基因中心等黄瓜 深圳华大研究院等 大熊猫 深圳华大研究院等蚂蚁 深圳华大研究院等,总结与展望,三代测序技术的原理各有特点,适用范围也不近相同。 第一代测序技术凭借其长的序列片段和高的准确率,适合对新物种进行基因组长距框架的搭建以及后期GAP填补,
18、但是成本昂贵,而且难以胜任微量DNA样品的测序工作。 第二代测序技术中,454序列片段最长,比较适合对未知基因组从头测序,搭建主体结构,但是在判断连续单碱基重复区时准确度不高。Solexa较454具有通量高、片段短、价位低的特点,可以用于大基因组和小基因组的测序和重测序。Solexa双末端测序(paired-end sequencing)可以为基因组进一步拼接提供定位信息,但是随着反应轮数增加,序列长度和质量均有所下降,而且在阅读AT区时有明显错误倾向。SOLiD基于双碱基编码系统的纠错能力以及较高的测序通量,适合转录本研究以及比较基因组学特别是SNP检测等,但是测序的片段短限制了该技术在基因组拼接中的广泛应用。 第三代测序技术目前正在研发阶段,尚未正式投入使用。,随着新的测序技术的出现,大规模测序的成本迅速下降,花费1 000美元测一个人的基因组的目标相信很快就可以实现。届时,对于遗传病的诊治将变得简单、快速,并能从基因组水平上指导个人的医疗和保健,从而进入个人化医疗的时代。,