1、EST聚类、常见问题及解决方案,陈 欢 王庭璋 曾晓维 叶琳 浙江大学沃森基因组科学研究院 2006-5,2019/8/11,EST courses at WIGS,2,目标基因的分析及应用,数据公布,形成文章,cDNA文库的构建,随机挑取克隆进行5或3端测序,序列前处理,聚类和拼接,基因注释及功能分类,文库检查!,2019/8/11,EST courses at WIGS,3,要点:,为什么要聚类?如何聚类? Phrap CAP3 TigrAssembler gap4结果分析常见问题及解决方案,2019/8/11,EST courses at WIGS,4,为什么要聚类?,多个EST可能代表
2、同一个转录产物 组成更长、更高质量的序列 减少冗余 利于EST功能的识别 区分不同的剪接产物 基因的表达谱分析,2019/8/11,EST courses at WIGS,5,聚类方法,overlap-layout-consensus Phrap, CAP, Staden Package, TigrAssembler, d2_cluster, etc. 功能聚类 其他,2019/8/11,EST courses at WIGS,6,聚类前处理,载体检测 污染检测 低质量序列处理 待聚类物种(组织)的高质量转录产物lesson.seq.screenlesson.seq.screen.qual (
3、可选的),2019/8/11,EST courses at WIGS,7,Phrap,基于swat算法 使用全序列质量信息 全基因组、EST 通常与Phred和consed联合应用 http:/www.phrap.org/phredphrapconsed.html,2019/8/11,EST courses at WIGS,8,Phrap,命令及参数phrap lesson.seq.screen -minmatch 20 -minscore 40 -view -new_ace phrap.out 结果lesson.seq.screen.contigslesson.seq.screen.sing
4、letslesson.seq.screen.viewlesson.seq.screen.acephrap.out,2019/8/11,EST courses at WIGS,9,CAP3,多用于EST序列 http:/genome.cs.mtu.edu/cap/cap3.html,2019/8/11,EST courses at WIGS,10,CAP3,命令及参数 cap3 lesson.seq.screen o 21 cap3.out 结果lesson.seq.screen.cap.contigslesson.seq.screen.cap.singletslesson.seq.screen
5、.cap.ace,2019/8/11,EST courses at WIGS,11,Staden Package,测序项目管理的整合软件包 组装、突变检测、序列分析、序列峰图及对reads文件操纵 基因组、EST UNIX/windows http:/ courses at WIGS,12,Pregap4, Gap4,Pregap4是gap4的前处理,在这里你可以处理原始的峰图文件,对序列进行载体和污染检查,同时也可以进行gap4组装。 经pregap4处理所得到的结果,可以通过gap4来进行查看和编辑。,2019/8/11,EST courses at WIGS,13,Pregap4, Ga
6、p4,命令及参数 Minimum exact match:14 Maximum number of pads:25 Maximum percentage mismatch:5% Maximum consensus length:100000 Maximum database size:8000 结果 lesson.0.aux,lesson.0 lesson.list.report,2019/8/11,EST courses at WIGS,14,其它软件,D2_cluster (StackPACK )http:/www.sanbi.ac.za/ TigrAssemblerhttp:/www.t
7、igr.org/software/assembler/ DNAStar:综合性序列工具软件,功能很广,名气很大. 囊括分子生物学领域大多数内容. http:/ courses at WIGS,15,结果分析,Contigs + singlets Contigs组成,2019/8/11,EST courses at WIGS,16,聚类问题,错拼 poly(A) , Linker-to-linker, Gene Families, repeat 漏拼 Low quality, Linker-to-linker, repeat 选择性剪切,2019/8/11,EST courses at WIGS
8、,17,解决方案,Parameters ESTs2Contig Blastn/Blastx search Assemble individually,2019/8/11,EST courses at WIGS,18,上机实习,原始数据: 200条没有质量文件的EST序列 162个原始的峰图文件 实习步骤:在windows下操作staden package, 以完成对这些数据的拼接,2019/8/11,EST courses at WIGS,19,Thank you!,2019/8/11,EST courses at WIGS,20,返回,2019/8/11,EST courses at WIG
9、S,21,1。 60 1 GCCTGCAGGTTCGACTCTAGAGGATCCCCTCACTTTTCAGTATTTCGTACAGTTTTCTGA 2 TTTTTATACTGGGTTCCTTGTTTTTCTTTTACAAAGATTTTTTGAAATATTAAAACTAAA 3 ATGTGTATAATAAAAATTGTATACCAATTTCAGTGATAAATAATTTATTTTATAGAAAAA 4 AGAAGAACAAAGCTGATGATTAAAACTGAACTCGATTTTCTGATTGGAAGAACTTGTACC 5 AATCGATGATATGAGATGTTAAAAACTGGGAATTGATATTTAACCGATTGAACCTGAATG 6 AAAAACCACGG-CC-GAAAATTAAATTATTATTTT-AATTGACATTTTTG-AAAATTTCC 7 CCCGTAATTTTTAT-GCAATTTTAAATTGAAGGTTTATTAATTGGTGGAATGG-GCTTTT 8 TTAGGTGTTGCAAC-ACCTATT-CCCAT-T-CC-CTTTGGGG-GG-GAATTC-AAATA 9 AC-T-G-G,返回,2019/8/11,EST courses at WIGS,22,返回,1,