1、生物信息学,陈小伟 中国科学院生物物理研究所 2015.09.30,高通量测序技术及数据分析介绍,高通量测序技术及数据分析介绍,背景介绍 第一代测序技术 第二代(高通量)测序技术 基因芯片与高通量测序的比较 高通量测序技术的应用 高通量测序数据分析概览 高通量测序数据质量评估与过滤 基因组测序 RNA-seq ChIP-seq UCSC Genome Bioinformatics,背景介绍,背景介绍,第一代测序技术 Sanger测序法 链终止法 双脱氧终止法 1975年,Transcription,http:/ Sanger 弗雷德里克桑格 1918年8月13日2013年11月19日 195
2、8年 诺贝尔化学奖 1980年 诺贝尔化学奖,背景介绍,第二代测序技术 边合成边测序 2005年左右 Sequencing by synthesis 代表性测序技术 Illumina/Solexa Roche/454 ABI/SOLiD Polonator HeliScope 参考文献 Metzker, M.L. (2010). Sequencing technologies - the next generation. Nat Rev Genet 11, 31-46.,http:/ HiSeq 2500,背景介绍,高通量测序文库构建 单末端测序,single-end 首先将DNA样本进行片段
3、化处理形成200-500bp的片段,引物序列连接到DNA片段的一端,然后末端加上接头,将片段固定在flow cell上生成DNA簇,上机测序单端读取序列。 双末端测序,paired-end 在构建待测DNA文库时在两端的接头上都加上测序引物结合位点,在第一轮测序完成后,去除第一轮测序的模板链,引导互补链在原位置再生和扩增,以达到第二轮测序所用的模板量,进行第二轮互补链的合成测序。,背景介绍,以Illumina为例简单介绍测序原理,Illumina HiSeq 2500,cBot,背景介绍,高通量测序数据格式 fasta 序列文件的第一行是由大于符号()打头的任意文字说明,主要为标记序列用。从第
4、二行开始是序列本身,标准核苷酸符号,通常核苷酸符号大小写均可 fastq 第一行由开始,后面跟着序列的描述信息,这点跟fasta格式是一样的;第二行是序列;第三行由+开始,后面也可以跟着序列的描述信息;第四行是第二行序列的质量评价(quality values),字符数跟第二行的序列是相等的。,背景介绍,高通量测序数据格式 fastq,Q =-10 log10(p) OR Q =-10 log10p/(1-p) (p:碱基错误率) 字符的ASCII值 - 64 = 质量值 OR 字符的ASCII值 - 33 = 质量值NCBI/Sanger or Illumina 1.8 and later.
5、 Using a Phred scale encoded using ASCII 33 to 93. This is the standard for fastq formats except for the early Illumina data formats (this changed with version 1.8 of the Illumina Pipeline). Illumina Pipeline 1.2 and earlier. Using a Solexa/Illumina scale (-5 to 40) using ASCII 59 to 104. The Workbe
6、nch automatically converts these quality scores to the Phred scale on import in order to ensure a common scale for analyses across data sets from different platforms (see details on the conversion next to the sample below). Illumina Pipeline 1.3 and 1.4. Using a Phred scale using ASCII 64 to 104. Il
7、lumina Pipeline 1.5 to 1.7. Using a Phred scale using ASCII 64 to 104. Values 0 () and 1 (A) are not used anymore. Value 2 (B) has special meaning and is used as a trim clipping. This means that when selecting Illumina Pipeline 1.5 and later, the reads are trimmed when a B is encountered in the inpu
8、t file if the Trim reads option is checked.36 39 39 39 39 39 39 39 39 39 38 39 39 36 36 34 34 29 31 2 20 20 19 19 19 38 38 38 36 36 36 36 36 36 30 32 35 35,基因芯片与高通量测序的比较,芯片与测序比较,基因芯片 约20年的历史,技术比较成熟,成本相对较低 原理 探针,互补配对的原则 靶序列用荧光标记 通过荧光强度间接反映靶序列的数量 应用 检测已知基因的表达水平 检测SNP位点的基因型 检测CNV,芯片与测序比较,高通量测序 约10年的历史,
9、发展快速,成本逐步减少 原理 边合成边测序 碱基用荧光基团标记 直接测定碱基序列 应用 全基因组测序 转录组测序 (small RNA seq, RNA-seq),可以检测已知基因的表达水平,可以发现全新的转录本 ChIP-seq CLIP-seq, ,芯片与测序比较,用高通量测序技术和基因芯片技术检测基因表达,Malone, J.H., and Oliver, B. (2011). Microarrays, deep sequencing and the true measure of the transcriptome. BMC Biol 9, 34.,高通量测序技术的应用,测序应用,高通
10、量测序数据分析概览,测序应用,Quality Assessment,Raw Data,FastQC; fastx_quality_stats,Remove adaptor / linker,fastx_trimmer,fastx_clipper,Split according to barcode,fastx_barcode_splitter.pl fastx_trimmer,Quality Control,fastq_quality_trimmer fastq_quality_filter,Further Analysis,高通量测序数据质量评估与过滤,FastQC FASTX-Toolki
11、t,测序应用,全基因组de novo测序 第一期:基因组调研图 整体测序深度不低于20倍覆盖度。进行初步的数据分析,对基因组大小,GC含量等做出初步评估,确定框架图梯度文库构建具体策略 第二期:基因组框架图 基因组覆盖度达到90% 以上,基因区覆盖度达到95% 以上,单碱基的错误率达到1万分之一以内,整体测序覆盖深度不低于60倍覆盖度。同时对框架图进行基本基因注释和功能注释,和简单的比较基因组学分析。 第三期:基因组精细图 基因组覆盖度达到95% 以上,基因区覆盖度达到98% 以上,单碱基的错误率达到10万分之一以内,整体基因组覆盖度不低于100倍,Scaffold N50大小不低于300Kb
12、,对基因组精细图进行详细基因注释,基因功能注释,基因代谢途径注释和比较基因组学分析。,全基因组de novo测序数据拼接组装算法流程,De Bruijn Graph (德布鲁因图),测序应用,全基因组重测序(外显子组测序)算法流程 发现遗传变异(SNP,indel等),测序数据,与参考基因组做比对,测序应用,测序应用,转录组测序 Small RNA seq 检测small RNA(主要是miRNA)的表达水平 发现新的small RNA RNA-seq Poly(A) 检测蛋白质编码基因的可变剪切体及表达水平 Total RNA(except rRNA) 检测mRNA及long noncodi
13、ng RNA的表达水平 发现新的long noncoding RNA 数据分析工具 Bowtie (http:/bowtie- TopHat (http:/ccb.jhu.edu/software/tophat/index.shtml) Cufflinks (http:/cufflinks.cbcb.umd.edu/),测序应用,RNA-seq数据分析工具 Bowtie Bowtie is an ultrafast, memory-efficient short read aligner geared toward quickly aligning large sets of short DN
14、A sequences (reads) to large genomes. TopHat TopHat is a fast splice junction mapper for RNA-Seq reads. Cufflinks Cufflinks assembles transcripts, estimates their abundances, and tests for differential expression and regulation in RNA-Seq samples.,Cole Trapnell: TopHat(2009), Cufflinks(2010) PhD Ste
15、ven Salzberg, University of MarylandLior Pachter, University of California, Berkeley Postdoc Join Rinns lab, The Broad Institute,测序应用,Overview of TopHat,测序应用,Splicing Junctions,Exon skipping or cassette exon,Mutually exclusive exons,Alternative donor site,Alternative acceptor site,Intron retention,测
16、序应用,TopHat: Discovering splice junctions TopHat v1.0.7 earlier seed-and-extend alignment TopHat v1.0.7 and later Suppose S is a read of length l that crosses a splice junction splits S into n segments, n=floor(l/k), (k=25bp) maps the segments s1,sn with Bowtie to the genome segments si, si+1 that bo
17、th align to the genome, but not adjacently a segment si fails to align because it crosses a splice junction, but si-1 and si+1 are aligned.,测序应用,TopHat: Discovering splice junctions TopHat v1.0.7 and later a segment si fails to align because it crosses a splice junction, but si-1 and si+1 are aligne
18、d.,si-1,Si+1,si,si,m bp,k-m bp,m=1,24,m=12,测序应用,Overview of Cufflinks,测序应用,转录本拼接算法中涉及到的概念 偏序关系与偏序集合 Partial order and Partially ordered set 偏序关系 偏序(亦称半序)关系是定义在集合上的一种序结构,是集合上满足一定条件的二元关系。 直观的说,偏序指集合中仅有部分成员之间可以排序。 全序关系 在集合 A 中,存在偏序关系“” ,如果对于任意 aA, bA, 有 a b 或 b a,即 A 中的每对元素都满足关系“”,则集合 A 上的偏序 “” 是全序的或线性
19、次序的。直观来说,全序指集合中全体成员之间都可以进行比较,可以排出所有元素的顺序。 偏序集合 指配备了偏序关系的集合,测序应用,转录本拼接算法中涉及到的概念 偏序关系 非严格偏序,自反偏序 给定集合S,“”是S上的二元关系,若“”满足: 自反性:aS,有aa; 反对称性:a,bS,ab且ba,则a=b; 传递性:a,b,cS,ab且bc,则ac;则称“”是S上的非严格偏序或自反偏序 严格偏序,反自反偏序 给定集合S,“”是S上的二元关系,若“”满足: 反自反性:aS,有aa; 非对称性:a,bS,ab ba; 传递性:a,b,cS,ab且bc,则ac; 则称“”是S上的严格偏序或反自反偏序。,
20、测序应用,转录本拼接算法中涉及到的概念 偏序集合 链 偏序集合的子集,满足其中任意两个元素可比 反链 偏序集合的子集,满足其中任意两个元素不可比 链划分 将偏序集合拆分成很多子集称作划分。 子集全为链的划分叫做链划分 子集全为反链的划分叫反链划分。 偏序集合的两个对偶定理 定理1 令(S,)是一个有限偏序集,并令r是其最大链的大小。则S可以被划分成r个但不能再少的反链。 定理2 (Dilworth定理) 令(S,)是一个有限偏序集,并令m是反链的最大的大小。则S可以被划分成m个但不能再少的链。,测序应用,转录本拼接算法中涉及到的概念 二分图 指顶点可以分成两个不相交的集使得在同一个集内的顶点不
21、相邻(没有共同边)的图。 设G=(V,E)是一个无向图,如果顶点V可分割为两个互不相交的子集(U,V),并且图中的每条边(i,j)所关联的两个顶点i和j分别属于这两个不同的顶点集(i in U,j in V),则称图G为一个二分图。,测序应用,转录本拼接算法中涉及到的概念 二分图 最大匹配 给定一个二分图G,在G的一个子图M中,M的边集中的任意两条边都不依附于同一个顶点,则称M是一个匹配. 选择这样的边数最大的子集称为图的最大匹配(maximal matching) 最小点覆盖 给定一个二分图G,在G的一个子图N中,N的点集中的点与所有的边都有关联(把所有的边都覆盖),则称N是一个点覆盖 选择
22、这样的点数最小的子集称为图的最小点覆盖(minimum vertex cover),测序应用,转录本拼接算法中涉及到的概念 二分图 最大匹配最小点覆盖Knig定理:最大匹配数等于最小点覆盖数,测序应用,转录本拼接 Definition Transcript primary transcript genomic location Transcriptome transcription loci The genomic location of a transcript tgG does not overlap the genomic location of any transcript u whe
23、re uhG and hg. Transcription locus is not biological.,测序应用,转录本拼接 Cufflinks is designed to aim for the following: (1) Every fragment is consistent with at least one assembled transcript. (2) Every transcript is tiled by reads. (3) The number of transcripts is the smallest required to satisfy requirem
24、ent (1).,测序应用,转录本拼接 A partial order on fragment alignments,x1 and y1 are compatible,x2 and y2 are incompatible,y3 is nested in x3,x4 is uncertain, because y4 and y5 are incompatible with each other.,测序应用,转录本拼接 Assembling a parsimonious set of transcripts,Assemble a set of transcripts,Find a minimum
25、partition P into chains,Find a maximum antichain,Find a maximum matching in bipartite graph,Find a minimum vertex cover,Knigs theorem,Dilworth theorem,Hopcroft-Karp algorithm,测序应用,转录本表达量的表示方法 RPKM (Reads Per Kilobase of transcript per Million mapped reads),实例:假设一个物种的基因组上只有两个基因,基因G1的外显子长8 Kb,基因G2的外显子
26、长2 Kb。对该物种的一个样本做RNA-seq,共得到23 millions 的read,其中能够比对到G1的read 有16 million 个,能够比对到G2的有4 million 个.计算G1和G2的RPKM。 Total mapped reads=16 million+4 million=20 million G1: total exon reads=16,000,000 exon length=8kbRPKM=16,000,000/(20*8)=100,000 G2: total exon reads=4,000,000 exon length=2kbRPKM=4,000,000/(
27、20*2)=100,000,测序应用,ChIP-seq数据分析 发现转录因子结合位点,http:/liulab.dfci.harvard.edu/MACS/,MACS Model-based Analysis for ChIP-Seq,Tao Liu PhD,测序应用,UCSC Genome Bioinformatics http:/genome.ucsc.edu/ 快速浏览整个基因组 整合了大量的基因组注释数据 支持数据库检索和序列比对,UCSC Genome Bioinformatics http:/genome.ucsc.edu/,测序应用,测序应用,UCSC Genome Bioinformatics http:/genome.ucsc.edu/ 查看特定序列在基因组上的位置,ToolsBlat,测序应用,UCSC Genome Bioinformatics http:/genome.ucsc.edu/ 查看特定序列在基因组上的位置,测序应用,UCSC Genome Bioinformatics http:/genome.ucsc.edu/ 查看特定序列在基因组上的位置,Zoom out 3x,生物信息学入门的几点建议,学习在线的生物信息学常用工具 了解常用的数据库 学习一门编程语言 学习linux操作系统,谢谢!,