1、1第一个要给大家讲的,是它这个 flowcell。Flowcell 翻成中文,就叫“流动池”。我们来看这个图片。图片当中,我们看到一个象载玻片大小的芯片。这个芯片里面,是做了 8 条通道。在这个通道的内表面,是做了专门的化学修饰。它的化学修饰,主要是用 2 种 DNA 引物,把它(2 种 DNA 引物)种在玻璃表面。这两种(DNA 引物的)序列是和接下来要测序的 DNA 文库的接头序列相互补的。而且这 2 种引物是通过共价键,连到 Flowcell 上去。之所以要用共价键连到 Flowcell 上去,是因为接下来有大量的液体要流过这个 Flowcell,只有有共价键连接的这些 DNA,才不会被
2、冲掉。这就是 Flowcell。文库制作再接下来,讲一下文库、和文库的制作(过程)所谓的 DNA 文库,实际上是许多个 DNA 片段,在两头接上了特定的 DNA 接头,型成的 DNA 混合物。文库有 2 个特点,第 1 个特点,是当中这一段插入的 DNA,它的序列是各种各样的。第 2 个特点,它的两头的接头序列,是已知的,而且是人工特地加上去的。要做这个文库,首先是把基因组 DNA,用超声波打断。然后打断之后,两头用酶把它补平,再用 Klenow 酶在 3端加上一个 A 碱基。然后,再用连接酶把这个接头给连上去。连好了接头的 DNA 混合物,我们就称为一个“文库”。英文也称作“library”
3、。桥式 PCR做好了 Library 之后,就要做桥式 PCR 了。桥式 PCR,实际上是把文库种到芯片上去,然后进行扩增,这样的一个过程。2这个过程,首先是把文库加入到芯片上,因为文库两头的 DNA 序列,和芯片上引物是互补的,所以,就会产生互补杂交。杂交完了之后,我们在这里面加入 dNP 和聚合酶。聚合酶会从引物开始,延着模板合成出一条全新的 DNA 链来。新的这条链,和原来的序列是完全互补的。接下来,我们再加入 NaOH 碱溶液。DNA 双链在 NaOH 碱溶液存在下,就解链了。而且被液流一冲,原来的那个(模板)链,也就是没有和芯片共价连接的链,就被冲走了。而和芯片共价连接的链,就被保留
4、下来。然后,我们再在液流池里加入中性液体,主要是为了中和这个碱液,在加入中和液之后,整个环境变成中性了。这时侯,DNA 链上的另外一端,就会和玻璃板上的第二种引物,发生互补杂交。接下来,我们加入酶和 dNTP,聚合酶就延着第二个引物,合成出一条新链来;然后,我们再加碱,把 2 条链解链解开;然后,我们再加中和液,这时侯,DNA 链会和新的引物杂交。再加酶,再加 dNTP,又从新引物合成出新的链来。连续重复这一过程,DNA 链的数量,就会以指数方式增长。制备单链在桥式 PCR 完成之后,接下来要做的工作,就是要把合成的双链,变成可以测序的单链。办法是通过一个化学反应,把其中一个引物上的一个特定的
5、基团给切断掉。然后,再用碱溶液来洗这个芯片。这时侯,碱让 DNA 的双链解链,那根被切断了根的 DNA 链就被水冲掉了。留下那根共价键连在(芯片)上面的链。接下来,再加入中性溶液,然后在这个中性溶液里面加入测序引物。正式测序好,接下来正式的测序工作就开始了。3那么,在测序的时侯,加入进去的,最主要是 2 个东西:一个是带荧光标记的dNTP。而这个 dNTP,它还有一个特点,它的 3末端是被一个叠氮基堵住的。然后,再加一个聚合酶,聚合酶就会选择:哪一个 dNTP 是和原来位置上的那个碱基是互补的,根据互补性原理,把这个 dNTP 合成到新的这个 DNA 链上去。因为这个 dNTP 的 3端是被一
6、个叠氮基团堵住了,所以,它一个循环只能延长一个碱基。然后,它就停在那儿了。合成完了之后,就用水把多余的 dNTP 和酶给冲掉。冲掉之后,就放到显微镜下,去进行激光扫描。根据发出来的荧光来判断它是哪个碱基。因为 4 种 dNTP,它每一种 dNTP 上面标的荧光素都不一样,根据红、黄、蓝、绿,它出来的哪种颜色,那么,就可以倒过来推出来,这个新合成上去的碱基,是哪种碱基。因为新合成的碱基,是和原来位置(的碱基)是互补的,所以,又推出模板上那个碱基是哪个。这一个循环完成之后,就加入一些化学试剂,把叠氮基团和旁边标记的荧光基团切掉。切完了之后,3端的羟基就暴露出来。再接下来,加入新的 dNTP 和新的
7、酶,然后,又延长一个碱基。新延长完一个碱基之后,把多余的酶和 dNTP 冲掉,再进行一轮显微的激光扫描,再读一下这个碱基是什么。不断重复这个过程,可以重复上百次,到几百次,就可以把上百个碱基,甚至更多碱基的序列读出来。读 Index那么,什么是 Index 哪?是因为 Illumina 的评委会个测序量很大,往往一个样本,用不了那么几亿条 DNA。所以,科学家就想了一个办法。在文库的接头上4做了一些标记,每一个样本,它有一个特定的接头,每个接头里面,它有一段特定的序列。这段特定的序列,我们就称为 Index。也有人把它叫做 Barcode,反正,表达的是一个意思:这么一段特定的序列,标记了样本
8、的来源。那么,要读这个 Index 的序列,先用碱把上面这根测完“Read 1”的序列,把上面这根 DNA 链给解链掉。解链掉之后,再加入中性液,然后,加入“Read 2”这个测序引物。Read 2测序引物结合的位点,正好,就在这个 Index 序列的旁边。接下来,就进行第 2 轮测序,一般来说,是读 6 到 8 个碱基。把这 6 到 8 个碱基读下来,我们就可以知道,这某一个具体的一段 DNA,它来自于原始的哪个样本。双端测序这是 Illumina 的最核心的另外一个技术,就是双端测序。那么双端测序,就是说,一根 DNA 链,除了从正向读一遍,还可以从 DNA 的负向,再读一遍。这一下子就把
9、 Illumina 测序的有效长度加了一倍。这是非常有实际用途的。那么这个倒链的过程,是这样,先让这个 DNA 先合成,合成出来这根互补链。有了这个互补链之后,用一个化学试剂,在原来这根链的根上切一下。切一下,原来这根模板链就掉了,剩下那根互补链。再接下来,就进行第 2 端的测序。第 2 端的测序原理,和第一端的测序原理是一样的。加上了“Read 3”的这个引物,依次往下,一个一个碱基地往下读。大规模平行测序那么最重要的事情是什么呢?一个点,经过几百个循环,就读出了几百个碱基。但实际上,这个芯片上可以有上亿个点,上亿个“cluster”,也就是“簇”。5那么上亿个“cluster ”,每个循环
10、,它都可以读出地么多序列,这是 Illumina测序非常强大的原因。因为是成千上万,准确说是上亿上链都在合成,这个就得到了很大的一个测序数据量。Illumina HiSeq 测序仪的工作原理。也就是芯片上发生了这么多变化,HiSeq 是如何把这些信息给读出来,并且把扫描出来的荧光信号,又通过怎样一系列的加工,变成可以识别的“A、C、G、T ”的碱基序列的。HiSeq 首先是一台高精度的显微光学扫描仪。然后再配上了一整套的液流系统,和计算机软硬件,再加温控系统,组成这样一台测序仪。其中最核心,也是结构最复杂的,是它的光学系统。前一期,我们讲了,Illumina 测序仪主要是靠 4 种 dNTP
11、分别带有不同的荧光基团,在被激光照了之后,发出不同颜色的荧光。再通过对光的颜色的分辩,可以判断出到底是哪个碱基。光路结构这里,我们要说明一下:感光元件 CCD,它本身是色盲。所以,它一定要配合滤光片,才能分辩出颜色来。那我们先来看一下,HiSeq 的光路图。左边这两个元器件,就是激光器。一个发出红色激光,另一个发出绿色激光。6其中红色激光主要是激发 A 和 C,这两种碱基上的荧光基团;而绿色激光主要是激发 G 和 T,这两种碱基上的荧光基团。红色和绿色这两束光,通过一面半透半反镜,组成一道激光。这道激光打在Flowcell 上。那么请注意,Flowcell 就放在这个位置。在 Flowcell
12、 里面,结合在 DNA 上的那个荧光基团在激光的照射下,就发出荧光。荧光通过 3 面半透半反镜,和 1 面全反镜,被分成 4 条光路,这 4 道光线,分别通过一道滤光片,这 4 张滤光片的滤过波长不一样。这样,这 4 道光在经过了滤光片之后,就变成了 4 种颜色不同的光线。然后,这 4 条颜色不同的光线,各自照在一面反射镜上,通过反射镜进入到CCD。这 4 个 CCD 就记录到不同颜色的光线。TDI 线扫描HiSeq 的光线扫描是 “线扫描 ”,和传统的相机不一样,传统的相机是面扫描。HiSeq 采取了一种特定的叫“TDI ”线扫描方式,TDI 是 Time delayintegration
13、的缩写。在 HiSeq 上之所以采取 TDI 扫描方式,因为它有非常明显的优点。7第一个优点,就是它的扫描速度非常快,在 HiSeq 2500 上,从 Flowcell 的一个 Lane 的一头扫到另外一头,也就是一个“Swath”的扫描时间,大概只有20 秒种不到。第二个好处,就是它的扫描精度非常高。在最新的 HiSeq V4 版试剂上,它的光点密度,大概可以达到每平方毫米 90 万个点,要扫描清楚这么高密度的光点,扫描仪的扫描精度是可想而知的。TDI 扫描的第三个好处,是这种方式,可以把 Flowcell 的上表面、和下表面都扫描到。Flowcell(测序芯片)接下来,我们再要详细介绍这张
14、 Flowcell。那么,先来看一下,这张 flowcell 有点象一张载玻片,在这一张片子里面,我们可以看到,它做了 8 条通道。每条通道,我们称为一个 Lane。这 8 个 Lane 之间,相互是隔绝的。每个 Lane 的两端各有一个小孔。这两个小也孔,就是液流流进、流出的地方。每个 Lane 的上表面和下表面,都分别以共价键的方式,种了 2 种 DNA 引物。这两种 DNA 引物,是与文库接头的两头序列相互补的。上一期(节目)我们已经说明了这一点。一个 Lane 里面,分成 2 个面,上表面、和下表面。上表面和下表面,都种了DNA 引物,也都是可以产生测序数据的。8在每一条 Lane 的
15、每一个面,又被分成了 3 个扫描通道,每个道被称为一个“swath”。每条 Swath 是从头到底被连续扫描的。但是它的数据,在进行数据分析的时侯,是被分割成 16 个小方块。这每一个小方块,被称为一个“tile”。这样一张 Flowcell,总共就是 768 个 Tile。每个 Tile 在扫描的时侯,会根据 4种颜色,产生 4 张照片。图像处理扫描完了之后,就要进行图像处理。扫描出来的最原始的文件,它的格式是“.tiff”文件。Tiff 文件记录了每个像素点上采集到的光强度。Tiff 文件的优点是它是完全无损,保留了所有的原始信息。但它也有它的不足之处。它的不足之处就是它的这个文件太大了。
16、它的数据量很大,既不便于数据的传输,也不便于数据的存储。接下来,计算机软件就把图像文件转化成光点文件。光点文件叫“.BCL”文件。也就是“Base calling”的英文缩写。要把图像文件,转化成 BCL 文件,就是把 4 种颜色的 4 张照片,组合在一起,变成一张有 4 种颜色的彩色照片。这其中首先要解决的,是 4 张照片在空间位置上的匹配问题,因为 4 张照片是通过 4 个 CCD 分别拍下来的,所以,会有一定的空间上的偏差。软件要通过对 4 张照片上,亮点相互比对,找到最合适的、匹配的位置。这里,我们要说明一下,如果被测的文库是碱基不平衡的文库,在这个空间匹配上就会遇到问题。什么叫碱基平
17、衡呢?也就是说,在测序过程当中,每个循环,A、C、G、T 四种碱基,都是比较均匀在存在的。9最典型是人全基因组文库,这是一个典型的碱基平衡文库。那什么是碱基不平衡文库呢?最典型的,就是 PCR 扩增子产生的文库。PCR扩增子的特点:PCR 是有特定的起始位点的,一个特定的测序循环中,几乎所有的片段都是同一种碱基,而剩下的 3 种碱基,就特别少。这在反映到照片上去的时侯,就变成:一张照片特别亮,光点很多。而其它的三张照片就特别暗,上面的光点就很少。这时侯,要软件做空间上的比对,软件就会觉得困难,因为对于那几张暗的照片,软件很难判断上面的光点,是否与那张亮的照片上的光点真正对得上。结果,就是判断出
18、来的可靠性变差。最后,就是测序的数据质量变差,有效数据量也会变少。要解决这个问题,办法是在测序过程中掺入一些碱基平衡的文库。例如掺人全基因组文库。或者也可以掺 Illumina 提供的标准的 PhiX 文库,这些都是碱基平衡文库。它的作用,是在每个循环当中,为每一种颜色的照片,都提供足够多的亮点。这样,它可以弥补那些不平衡的文库当中缺亮点的问题。BCL 文件当把 4 种颜色的光点组成一个文件之后,软件就会生成一个“.BCL”文件。“.BCL”文件就是光点文件,它对每个光点,记录了以下的内容。首先一个光点处在哪个 Lane 里面。其次,这个光点在这个 Lane 的哪个 Tile里面。第 3,就是
19、这个亮点在这个 Tile 的 X 轴和 Y 轴的座标位置。第 4,是记录了这个光点当中“红、黄、蓝、绿”四种光的对应的光强。这个图是 BCL 文件的一个示意图。实际上,BCL 文件是二进制文件,无法拿来直接阅读。也正是因为 BCL 文件难于阅读,并且很难改动,所以,BCL 文件几乎不存在做假的可能。10在测序过程当中,有许多客户会要求测序公司提供原始的测序数据,如果客户是包 Lane、或者包 Flowcell 的,一般测序公司是可以提供 BCL 文件的。客户在拿到 BCL 文件之后,可以用“BCL2FASTQ”这个软件,把 BCL 文件转化成 FASTQ 序列语文件。以此,客户可以来验证,测序
20、公司提供的数据是否是原始的,是否是真实的。再说一下最初生成的那个 tiff 文件。tiff 文件实在太大了,所以,测序仪在测序过程中,只把 tiff 文件作为中间文件。最后是把这个 tiff 文件删掉的。如果客户想要原始的图像文件,在 HiSeq V4 之前,可以让测序公司保留“.CIF”文件。CIF 文件是一种彩色图案的向量文件,它的优点是比 tiff 文件的数据量小很多。测序公司把 CIF 文件给客户之后,客户就可以看到原始的图像文件了。但是,请注意:在 HiSeq 升级到 V4 之后,保留 CIF 文件的这个选项是被取消掉了。所以,对于要测 V4 Lane 的客户来说,是拿不到 CIF
21、文件了。碱基识别接下来,我们讲一下碱基识别。我们之前讲:4 种 dNTP,各标一种荧光基团,红、黄、蓝、绿,四种颜色,根据颜色来判断碱基种类。这个实际上是一种简化了的说法。实际情况,要比这个复杂得多。来看这个图,这是 2 种荧素的荧光的波长图。我们会发觉,这两种荧光色,它发出来的发射光,它在波长上是有交叠的。在X 的这个位置,主要是绿色荧光素的贡献,但是蓝色荧光素,也有少许贡献。11而在 Y 这个波长位置,蓝色荧光素是做了主要贡献,但是绿色荧光素,也有少量供献。在实际测序过程中,是 4 种荧光素发出的亮,相互有交叠,相互之间的交系,变得更加复杂。那么,现在我们要做的事情,是把 A、C、G、T,
22、4种荧光素的贡献给拆开。首先,我们就要确定 4 种荧光素在 4 个被测波长处的贡献率。我们可以看一下,这个表,就是 4 种荧光素,在 4 个波长分别有不同的贡献率。这样就组成一个 4X4 的贡献率表格。我们在实际的分析当中,等于解一个 4元 1 次、 4 联方程。因为是 4 个未知数,又是 4 个方程,所以肯定是可以解出来的。说解方程,有点复杂。那么我们来打一个比方。让大家来理解这个事情。假设有一家饭店,它有 4 个熟客:甲、乙、丙、丁。它日常又提供 4 道菜:猪肉、白菜、黄瓜、花生。大厨知道:甲最爱吃猪肉、乙最爱吃白菜、丙最爱吃黄瓜、丁最爱吃花生,每个人来了饭店之后,主要吃自己最爱吃的,也会
23、吃些别的菜,但别的菜都吃得不是太多。那么这个大厨不到前台,看不到今天来的客人。如果,这个大厨想要知道今天来的客人是谁,他有什么办法呢?看今天哪个菜被吃掉得最多。如果今天的菜被吃掉的最多的是猪肉,那他可以大致地判断,今天是甲来过了;如果他看到今天被吃掉的菜,最多的是白菜,很可能是乙来过了;那么其它的,道理也是一样的。希望这个例子可以帮大家来理解一下,这 4 个荧光和 4 种碱基的判读的关系。Phasing 和 Prephasing接下来,我们再讲一下,Phasing 和 Prephasing。12在 Illumina 的测序过程当中,一个簇,大概有 5 千个到 1 万个分子。但是在边合成、边测序
24、的过程当中,每一步酶反应,理想情况下,应该这 5 千个分子都延长 1 个碱基。但实际情况,总有少量分子没有完成延长反应。也就是说,总有少量的分子会掉队,我们称这种掉队的现象叫“phasing”。Phasing 主要是由于酶活性不足,所引起的。如图所示,掉队的这个分子,它所发出的荧光信号,和大部队所发出的荧光信号是不一样的。这个循环的次数越多,掉队的分子就越多。所以,测序越到后面,它 Phasing 的分子数就越多。最后,信号的可靠性就越差。除了掉队的分子,还会有一部分分子,会跑得超前,也就是在一个循环中,它延长了 2 个碱基。在一个循环中延长了 2 个碱基的最主要的原因,是 dNTP 上标记的
25、那个叠氮基团(N 3)掉了。我们知道,叠氮基团是非常容易从有机化合物上掉落的。当叠氮基团掉落之后,dNTP 的 3端的羟基就暴露出来了。当丢失了叠氮基团的 dNTP 加到(合成链的)3 端之后,它的聚合反应不会终止,而是会继续往前走。当再加上了一个带叠氮基团的 dNTP 之后,这个聚合反应才停下来。这样的后果,就是一个循环,某些分子,会合成了 2 个碱基。也就是说比大部队多走了一步。那么这个多走了一步的碱基,它所发出来的荧光颜色,也是和大部队不一样的。在 Illumina 测序过程当中,Phasing 和 Prephasing 是限制测长的最主要原因。也就是说,随着循环不断进行,越来越多的分子
26、掉队,还有越来越多的分子超前。然后,它们所产生的噪音,掩盖了大部队的信号的时侯,也就是测序开始测不准的时侯。13在 HiSeq 测序当中,从第 12 个循环开始,在计算某个光点是哪种碱基的时侯,就要把 Phasing 和 Prephasing 的影响,纳入考虑。Chastity 和 Pass filter为了对光点当中荧光素的纯粹程度进行描述,Illumina 公司定义了个标准,叫“chastity”,Chastity 的定义,就是浓度最高的那个荧光素的量,去除以“它自己 + 排名第二的荧光素的量的和”。大于 0.6 是一个好碱基。用更加通俗的话来说,也就是“老大”比“老二”,如果大于、等于“
27、1.5 倍”,这就是个“好”碱基。如果“老大”比“老二”不足“1.5 倍”,这就是个“坏碱基”。Illumina 对每个 read 的质量都要做一个检验,这个检验就叫“pass filter”检验。检验的标准,是看前 25 个碱基当中,有几个是“坏碱基”。如果只有一个、或者没有坏碱基,则 Pass filter 就通过;如果有超过一个以上的坏碱基,Pass filter 就不能通过。那我们平时说,测序服务保证多少“PF data”,指的就是 Pass Filter(PF)的数据。Pass Filter 最主要的作用,就是把那些一个光点当中,含了几个 cluster 的那些点,给去掉。只剩下那些
28、纯粹的单克隆的 read,作为合格的数据,提交给客户。我们平时说“PF 率”,指的就是 Pass Filter 的 Reads 数,占总的、测到的Reads 数的比例。14PF 率可以从一个侧面反映测序的质量。一般来说,如果上样密度过高,PF 率就可能会下降。Quality Score,Q 值一个碱基的 Quality Score,也就是这个碱基的质量分数(Q 值)。这个是通过这个碱基被误判的可能性,换算出以 10 为底的对数,再乘以“-10”得到的这样一个数字。这个 Q 值,有点象我们说黄金的纯度,我们说 “三九金”,或者说“四九金”,就是指 99.9%的纯度的金子,或者是 99.99%的纯
29、度的金子。我们平时说 Q30,就是指一个碱基的可靠性达到 99.9%。或者说,它的出错的可能性小于千分之一。同样道理,我们说 Q40,就是指一个碱基的可靠性是 99.99%。或者说,它的出错的可能性是万分之一。那么,我们经常说 Q30 比例,所谓的“Q30 比例”,就是在全部 PF 数据当中,达到、或者超过 Q30 质量标准以上的数据,占所有 PF 数据的比例,叫 Q30比例。Q30 比例,可以表征一个测序过程的质量的好坏。一个碱基的质量分数,不是以数字方式,直接记录到最后的 Fastq 文件的。而是把它的 Q 值,加上 33,再用 ASCII 码表转换成一个字母,把这个字母录入 Fastq
30、文件。这样做,有 2 个好处。如果我记 2 位数字,那么就占 2 个字节,现在用一个字母来记录,只占一个字节。那(数据存储)空间就节省了很多。15第二个好处,用 ASCII 码字母表,一个碱基,只对应一个字母;如果是用 2 位数字来记录,就有可能发生移码错误。而用 ASCII 码,一个字母来记录,就不太容易发生移码错误。Fastq 文件在软件做完上述所有的数据处理之后,就会生成一个 Fastq 文件。Fastq 文件里,主要包含了 3 部分内容。第一个部分,是每个 Read 的目录信息。也就是这个 Read 来自于哪台HiSeq、第几个 run、第几个 Lane、和第几个 Tile,以及在这个
31、 Tile 的 X、Y的什么位置。接下来,就是所测到的碱基的序列。最后,是这些碱基序列对应的质量分数信息。这个,就是 Fastq 文件。到 Fastq 文件之后,测序仪所要完成的工作,就完全完成了。Pacbio 是目前读长最长的测序技术公司。它的读长,最长可以达到 2 万到 3万个碱基,平均可以达到 8 千多个碱基。相比于 llumina 和 Ion Torrent 的几百个碱基的读长来说,有着明显的优势。PacBio 测序过程16PacBio 的测序原理,和别的高通量测序的原理,基本上也是一样的。也是边合成,边测序。首先,这个聚合酶是固定在测序小孔的玻璃底板上。这个聚合酶又和 DNA 模板、
32、测序引物是结合在一起的。然后加入带 4 色荧光的 dNTP 底物,这些 dNTP 都在其磷酸基团上被标上了荧光基团,四种碱基、各标一种颜色。当一种与聚合酶正要合成的碱基一致的 dNTP 被酶抓住的时候,酶就会长时间地抓住这个 dNTP,不让这个 dNTP 漂走。这时侯,激发光从小孔的底部照进来,打在这个被抓住的 dNTP 上,就会在较长时间内发出荧光。仪器根据所拍到的荧光的颜色,就可以来判断,这个碱基是哪种碱基。一个循环的聚合反应发生完毕之后,焦磷酸基团就从原来的 dNTP 上掉下来,因为荧光基团是连到这个焦磷酸上的,所以这个荧光基团也就一起掉下来了,在溶液中就会漂走。接下来,进行第二、第三个
33、循环,一直进行下去。一张芯片上有几万个孔,同时进行测序,这样一次就可以得到几亿个碱基的序列。接下来,分几个要点,来说明这个测序的过程。化学方法和 Illumina 一样, PacBio 也采用了 4 色荧光基团来标记 dNTP,但是 PacBio的标记和 Illumina 的标记有所不同, PacBio 的荧光基团直接是标在 dNTP 的3端的磷酸基团的末端的。17这样标记的好处是:当一个聚合反应的循环完成的时侯,dNTP 上的那两个磷酸基团就掉下,连在这个磷酸基团上的荧光基团也随一块儿掉下来。它掉下来之后,就在溶液中漂走,不会影响接下来的测序过程了。测序微孔然后,我们说一下这个测序小孔的设计
34、。这个测序小孔叫 Zero Model Waveguide,简称 ZMW。小孔的直径很小,光只能在小孔中传输很短的距离。这个特点对 PacBio 的测序很重要。因为酶是被固定在玻璃底板上的,所以,只有互补的 dNTP 被酶抓到的时侯,这个 dNTP 才会较长时间地停留在离玻璃底板很近的位置。也只有这样,才会被激发光照到,并且发出它的荧光。PacBio 的光学设计中,入射光是几百纳米波长的可见光,光从小孔的底部的玻璃处照到小孔中来。这个,只有 70 纳米。其它游离的 dNTP,只会非常短暂地进入小孔,又很快漂走。所以,这些游离dNTP 带来的的噪音(信号),就被抑制在很低的水平。哑铃状的文库接下
35、来,我们说一下 PacBio 的建库。PacBio 的建库是比较特别的。它的库是在 DNA 片段的两段各接一下发夹型的接头。接好了发夹形的接头之后,形成的文库是一个哑铃形的文库。这种哑铃形状的文库有个好处,那它整个分子实际上是一个圆环。在测序的过程中它可以周而复始地进行测序,这对于发挥 PacBio 的长读长的优势是很有益处的。超长读长的根本原因 - 单分子测序18接下来,我们说一下 PacBio 它测序长度优势的来源。这个来源,是因为它测的是个单个分子。相比之下,Illumina 或者 Ion Torrent 测的都是一簇分子。或者说它们测的都是一大堆分子。当它测一大堆分子的时侯,每个循环,
36、多多少少,总有一些分子落后;也多多少少,有些分子超前。这些落后、或者超前的分子,在每个循环里面就会给出噪音。而且,随着循环次数越来越多,落后、和超前的分子也会越来越多,达到一定程度的时侯,噪音就会很大,大到会掩盖掉信号。当噪音大到掩盖掉信号的时侯,实际上测序就测不准了。相比之下,PacBio 它只有一个分子,所以,它不存在同步问题。这就让它可以测到几千、基至上万个 BP 都可以达成。碱基判读准确率:87.5%接下来,我们要说一下 PacBio 测序的缺点。最大的缺点是对碱基的判读不准。它的错误率是 12.5%。也就是说,它每读 8个碱基,就有一个是读错的。那么它主要的错误类型是“插入“ 。也就
37、是说,它会多读一个碱基。好在,它的这种错误是随机的。也就是说,你在这个地方再读一遍,它不一定会发生同样的错误。那么,对于同一个序列,多测几遍之后,这些偶然误差,可以被校正过来。读长限制因素接下来,我们说一下限制 PacBio 读长的因素。19第一个因素,就是 DNA 链上出现了缺口。测序过程中是用激光照射来发出荧光的,所以当强光长时间照射 DNA 链的时侯,DNA 链就有可能被照断掉,出现缺口。当酶读到这个缺口的时侯,酶就从模板链上掉下来。这时侯,测序就终止了。这是第一种可能。第二种可能,是光线照射情况下,酶有可能会变性,当酶发生了变性之后,失去了聚合酶的功能,这时侯,测序也会终止。第三个限制
38、因素,是文库本身的长度。因为要做片段长度大于 2030K 的文库,是有相当大的困难的,所以,文库本身的质量,在一定程度上,也限制了PacBio 的读长。数据通量在高通量测序当中,测序的通量,是一个很重要的技术指标。那 PacBio 大根一张芯片一次可以测到 0.30.4G 的数据。在 PacBio 测序中,芯片上的小孔数是第一个绝对的、限制性的因素。目前的芯片,是有 15 万个小孔。但这 15 万个小孔中,并不是每一个都能产生有效数据的。这里,我们要说一下,测序复合物和玻璃底板结合的方式所谓的测序复合物,就是“聚合酶、测序模板、测序引物“ 这三者组成的复合物。这个复合物是通过聚合酶连接到玻璃底
39、板上的。这个连接方式,首先在聚合酶上标上生物素。然后,在小孔的玻璃底板上标上链霉亲合素。20实验过程当中,利用生物素和链霉亲合素的亲合力,把两者(聚合酶、和玻璃底板)结合到一块儿。在实验过程当中,这个测序复合物是被随机地铺撒到这 15 万个小孔中的。因为是随机地铺撒进去的,所以,有多少个小孔里面正好有一个测序复合物,是符合泊松分布的。最理想的情况下,是有 1/3 的小孔是正好有一个测序复合物。这时侯,还有约1/3 的小孔是空的,还剩下约 1/3 的小孔是有 2 个或者 3 个以上的测序复合物被种进去。空的这些小孔,因为接下来它没有聚合反应发生,也没有信号,那当然是废掉了。那么有 2 个复合物种
40、进去、或者有更多复合物种进去的这些小孔,因为它产生的信号会非常的杂乱,所以,这些孔实际上也是没用的。它产生的数据,在接下来的数据分析当中,是会被去掉的。一张芯片有 15 万个孔,其中 1/3 有效,也就是说,有效的孔数是 5 万个。然后乘以它目前的平均测长,大概 8 千多个碱基,所以,一张芯片,比较理想的情况下,大概有 0.4G 的数据量的产出。直接测 DNA 修饰PacBio 在测序当中,可以直接测到碱基的被修饰状态。因为当聚合物,遇到模板上有甲基化的 A、C 等碱基,它测序的速度就明显地放慢。而且它的光谱特征会发生改变。这样,就可以判断,这个位置上的 DNA 被甲基化了。GC Bias 很
41、小PacBio 测序还有另外一个好处,就是它 GC Bias 很小。21什么叫 GC Bias 呢?就是我们知道,所有的 PCR 的过程,如果模板里面G、C(碱基)的含量比较高,PCR 的效率就比较低。反之,A、T (碱基)的比例比较高,则它 PCR 的效率比较高。传统的建库当中,一般都有大量的 PCR 的过程。它导致的一个结果,就是G、C 含量高的那些片段,它读到的 Reads 数,就会比较少。PacBio 它的好处,就是它的建库过程中没有 PCR 过程,所以,它带来一个直接的好处:就是它测序过程当中,GC Bias 很少。也就是说,那些高 GC 的片段,有和低 GC 的片段差不多的概率被读到。测序速度极快高通量测序的另外一个指标,就是测序的速度。PacBio 的测序速度取决于酶反应的速度。目前 PacBio 用的这个酶,大概 1 秒钟是合成 3 个碱基,1 个小时大概就可以合成 1 万多个碱基,3 个小时可以合成 3 万多个碱基。到 3 万多个碱基之后,基本上继续在读的 Reads,已经几乎没有了,所以, 3 个小时之后,测序基本就完成了。1 个 Run 读三个小时,相对于 Illumina 的测序速度来说,是非常快的;相对于Ion Torrent 的测序速度来说,也相对要快一点点。所以,PacBio 是一种非常快的测序方式。