收藏 分享(赏)

基于生物信息学的单核苷酸多态性(SNPs)筛查.doc

上传人:weiwoduzun 文档编号:2086711 上传时间:2018-08-31 格式:DOC 页数:6 大小:79KB
下载 相关 举报
基于生物信息学的单核苷酸多态性(SNPs)筛查.doc_第1页
第1页 / 共6页
基于生物信息学的单核苷酸多态性(SNPs)筛查.doc_第2页
第2页 / 共6页
基于生物信息学的单核苷酸多态性(SNPs)筛查.doc_第3页
第3页 / 共6页
基于生物信息学的单核苷酸多态性(SNPs)筛查.doc_第4页
第4页 / 共6页
基于生物信息学的单核苷酸多态性(SNPs)筛查.doc_第5页
第5页 / 共6页
点击查看更多>>
资源描述

1、1基于生物信息学的 SNPs候选位点的筛查吴慧光 1( 许尚忠 2* 孙少华 1 高雪 2 任红艳 2 (河北农业大学动物科技学院 1 保定 河北 071001中国农业科学院畜牧研究所 2 北京 100094)摘要:单核苷酸多态性(Single Nucleotide Polymorphisms, SNPs)是生物基因组中最常见的遗传多态。SNPs作为新一代分子遗传选择标记,在遗传学和医学研究很多方面具有重要的作用。最近几年,国际上出现了一种基于生物信息学的发掘SNP新方法。本文对采用该方法进行SNPs筛查的各种策略及其发展现状作一介绍。关键词:单核苷酸多态性;生物信息学;EST;STS;基因组

2、序列中图分类号:Q349.53文献标识码:AMining Candidate Single Nucleotide Polymorphisms by Bioinformatics MethodsWu Hui-guang1 ,Xu Shang-zhong2* ,Sun Shao-hua1,Gao Xue2, Ren Hong-yan2 ,Chen Jin-bao2(1,College of Animal Science ,Agricultural University of Hebei ,Baoding,0710012,Institute of Animal Science ,The Chines

3、e Academy of Agricultural Sciences,Beijing,100094)Abstract: SNPs,Single Nucleotide Polymorphisms are the most frequently found DNA sequence polymorphism in biological genome. As a new generation of molecular genetic selective mark,SNPs had play a important role in the genetics and medicine. Recently

4、, a new method ,mining SNPs based on bioinformatics,was used to detect SNPs. In this paper,the strategies of this method and its status quo are discussed.Keywords: Single Nucleotide Polymorphisms ;bioinformatics ;EST ; STS ;genomic sequence单核苷酸多态性(Single Nucleotide Polymorphisms, SNPs)是近年来出现的第三代遗传标记

5、,它指在基因组内特定核苷酸位置上存在两种不同的碱基,其中最少的一种在群体的频率不小于 1%1。SNPs 是生物的基因组中最为常见的遗传多态型,它可以在任何一个待研究基因的内部或附近提供一系列标记 2。 从理论上讲,任何用于检测单个碱基突变或多态性的技术都可以用于 SNPs的识别和检出,例如限制性酶切片断长度多态性(Restriction Fragment Length Polymorphism, RFLP),单链构象多态性(Single-Strand Conformation Polymorphism,SSCP) ,构象敏感凝胶电泳(Conformation-Sensitive Gel Ele

6、ctrophoresis,CSGE) ,错配化学裂解法(Chemical Cleavage of Mismatch, CCM)等位基因特异性 PCR(Allele Specific PCR ,ASPCR) ,等位基因特异性寡聚核苷酸探针杂交(Allele Specific Oligonucleotide Hybridization , ASO)等 3。但这些传统的检测技术难以实现大规模 SNPs筛查,也不适基金来源:国家“863”高科技“优质鲁西黄牛新品系选育”(2002AA242011);“十五”国家重大科技专项 北方牧区现代化奶业生产技术集成与产业化示范(2002BA518A14)作者简介

7、:吴慧光(1980)男,河北邯郸人,硕士,主要从事遗传育种与繁殖的研究。通讯作者:许尚忠,男,研究员,博士生导师。Email: 电话:628909402用于 SNPs的自动化批量检出。近年来已发展了一些针对SNP的自动化批量检测方法,如DNA芯片技术(DNA Chip) 、焦磷酸测序(Pyrosequencing for SNP Genotyping) ,MALDITOF质谱法(Matrix Assisted Laser Desorption Ionization-Time of Flight Mass Spectrometry)、变性高效液相层析技术(Denaturing High Perf

8、ormance Liquid Chromatography,DHPLC)等 3。但由于这些方法技术复杂且耗费巨大,故其应用多局限于少数资金雄厚的实验室。然而,随着人类基因组计划和各种模式生物的基因组计划陆续开展,NCBI、EBI、DDBJ三大数据库中存储的 DNA序列数量飞速增长。这一不断增大的数据库资源可以成为寻找SNPs的重要宝藏。采用先进的生物信息学软件,利用计算机自动识别已经成为一种简单、有效廉价的发掘 SNP的新策略。目前,国际上的许多实验室采用这种策略开发出了许多各自的 SNP候选位点筛查方法。其主要的方法和策略主要有以下几种:1基于生物信息学的 SNPs的筛查检测方法1.1 基于

9、 EST序列比较的 SNPs的筛查方法 EST(Expressed Sequence Tag)表达序列标签,是指在进行 cDNA序列测定中所获得的序列片断,一般只有 200600bp。这些序列代表了 mRNA序列的一部分,也代表了相应基因的表达情况 4。由于国际的三大核酸数据库中的 EST序列来自不同机构的不同文库,因而这些 EST序列往往体现着多态性。为了解决 EST的重复和冗余,NCBI 的工作人员开发了 UniGene数据库(http:/www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=unigene) ,将来自同一基因的序列放在同一簇(cluster)

10、 。将某一基因对应 UniGene中的序列执行一次序列比对,即可以发现包含其中的多态信息含量。Picoult等 5利用公共的 EST数据库快速筛查候选的 SNPs。他们从 EST数据库中提取了 19个不同的 cDNA文库,利用 Phred6,7对 300,000 条 EST序列进行碱基判读,然后用Phrap软件进行重叠群组装,最后用 Consed8软件进行 SNP的查看分析。他们共筛查出850个候选的 SNPs位点,然后他们选取 88个位点,证实了 55个,证实率 62.5%。Useche等 9采用 Phrap/CAT/PolyBayes软件从公共数据库下载了 68,000条玉米的EST序列,

11、发现了 2439个候选的 SNPs位点以及 822个插入/缺失多态性位点(InDel) 。Jalving等 10通过对来自 ChickEST计划的 327,000条 EST检测候选的 SNP位点,利用 Phred/Phrap/Consed软件包共筛查出 32,268个候选 SNPs位点。并构建了一个高密度的SNP遗传图谱。为了证实其可靠性,选取 24个 Bgl酶作用的 SNPs位点,进行 RFLP检测,并证实了 21个位点,检出率 87.5%。3图解:应用 POLYBAYES算法分析 EST序列 a.对已知的人类的含有重复序列的基因组区域进行标识 b.将获得的 EST序列在 dbEST进行序列

12、的比对 c.对相似的 EST序列进行标记并剔除 d.对同源的 EST序列进行装配并扫描以发现可信的候选 SNPs位点 f.通过对纯合子进行测序以获得 STS序列 g.通过对 DNA样品的 STS序列进行测序发现真实存在的 SNPs位点(引自 Marth等 11)Schultz等 12利用 EST数据库分析了 100个信号蛋白家族。他们从 EST数据库中下载组装成重叠群,分析 SNPs位点并利用 Blastn转化为蛋白质序列,并发现了至少 106种新的 GTP酶。Kim等 13用 Phred/Phrap/PolyPhred/Consed软件包对鸡的 23,427条 EST序列进行组装,共发现了

13、1210个候选的 SNPs位点,其中 35为 nsSNPs位点(非同义突变 SNPs) 。Schmid等 14对拟南芥的 10,706条 ESTs序列,606 条 STSs序列,进行分析发现了8051个 SNPs位点,和 637个插入/缺失(InDel)多态性位点。澳大利亚联邦科学与工业研究组织(CSIRO)组装了 321,000条牛 EST和 mRNA序列,构建了 29,965个重叠群,并将所发现的 SNPs位点构建 SNPs数据库。(http:/w ww.livestockgenomics.csiro.au/ibiss/) 15由于 EST序列来源于基因表达,因此,通过 EST序列比对所获

14、的 SNP位点均为 cSNP或位于 5UTP或 3UTR的 SNP。这些 SNP位点在进行遗传、表型相关性分析时是非常重要的。然而,表达序列只占基因组序列的 3左右,在 EST序列分析中所获得的 SNPs位点不足以构建分布于整个基因组的 SNP标记,不能满足复杂遗传连锁分析的需要。大量的位于非编码区的 SNPs对于构建 SNP图谱是十分重要的。因此,需要开发不仅仅针对 EST序列的SNP筛查策略。1.2基于 STS和基因组序列的 SNP的筛查如前所述,公共数据库中已经积累了的大规模基因组测序所产生的大量的 DNA序列。这些丰富的 DNA序列成为有效识别 SNPs的重要数据源。在如何充分而有效的

15、利用这些序列资源,进行高效的 SNPs的筛查,国际上的许多实验室进行了不同的探索。Marth等 【16 报道,他们通过 WU-BLAST程序查找同源的 EST、STS、基因组序列等各类序列,然后进行序列比对,并结合 Bayes算法计算 SNP的可信度,开发了 PolyBayes程序,使判读精度大大提高。该方法充分利用各种数据库的可利用的序列资源,因而具有很大的优越性。TaillonMiller 等 17利用人类基因组测序产生的重叠群,主要是 STS序列。在对200.6kb的重叠的 DNA序列分析中,发现了 153个 SNPs位点,他们通过计算机的进一步分析表明,在 44条重叠的 STSs序列中

16、,含有 68个 SNP位点,然后他们讲 68个候选 SNPs位点在美国黑人、高加索人、西班牙人群中进行了证实。其中 42个 SNPs位点(62)在至少一个人群中得到了证实,32 个 SNPs位点(47)在 2个或更多的人群中得到了证实,23个 SNPs位点在 3个人群中都得到了证实。杨伦等 18报道,采用生物信息学的方法进行水稻功能基因的 SNPs位点发掘,他们将水稻基因组产生的 EST序列、STS 序列构建重叠群比对筛查 SNPs位点,并发现了数百个与农艺性状相关的 SNPs位点。1.3基于自建 cDNA文库的 SNP筛查利用公共数据库的 SNP筛查,其筛查的效率和准确度取决于公共数据库中公

17、布的序列的丰富度,因此,很多实验室自行构建 cDNA文库,结合相关的序列比对软件进行 SNP的筛查。Morales等 19利用自建的 cDNA文库,从大约 15kb的黄瓜的 DNA中发现了共 43个多态位点(其中 34个为 SNPs位点,9 个短的插入缺失位点) ,并采用了 RFLP、单引物延伸技术、SSCP 技术进行了证实。FahrenKrug等 20将自建的猪的 cDNA文库中的 EST序列与 GenBank中的非冗余数据库确定 SNPs位点,然后 PCR扩增,测序检测,在 403扩增子(amplicon)中发现了 1650候选 SNPs位点。Fitzsimmons等 21报道,他们分析了

18、来自白来航和红色林鸡的脑和睾丸组织的 cDNA文库的共 16,000条高质量的 EST的序列。他们采用 Phred/Phrap软件发现了 746个候选的SNPs位点。为了证实其试验的可靠性,分别选取 5只白来航和红色林鸡的睾丸组织,选取418个候选的 SNPs位点进行实验室验证,结果 12个位点进行了扩增,9 个位点证实了多态性。2基于生物信息学的 SNPs筛查的假阳性问题及其筛查的原则利用生物信息学进行SNPs的筛查,其中最关键的问题是筛查的假阳性率问题。由于公共数据库中公布的EST的序列绝大部分是经过一次测序得到的,所以,如何提高SNPs筛查的真实性,降低SNPs筛查的假阳性率,是利用生物

19、信息学方法进行SNPs筛查的重要前提。根据真实SNP的特征,我们着重从以下几方面控制一个候选位点成为真实SNP的可能性:2.1分析前的序列质量控制主要有以下几个措施:1)如果序列中含有10的Ns,则该序列则会在分析前被移除。太多的Ns说明该序列测序是不准确的 15。2)非同源序列将会被移除 15。由于在进行序列检索时,有些非同源的序列,由于序列的相似性而被检索,所以,在进行进一步的分析之前,这些非同源序列将会被剔除。3)载体序列将会被移除 15。2.2序列分析中的质量控制1)如果分别存在两条以上的序列支持该点突变各自的基因型,则此处往往存在真实的SNP。因为同一位点出现两次以上序列错误的概率很

20、小 13,15 。2)读序的两端较中段更倾向于出错进而造成SNP的假阳性。这是双脱氧核苷酸测序法所固有的局限性所造成的 18。所以,在序列末端的20bp范围内发生的序列变异将会别忽略 13,15 。3)一些序列中的“N”位点表示测序中的无法判定情况,这可能是具SNP的杂合子在此形成的测序峰图双峰现象所造成的软件判读困难 18。因此,对于序列中的“N”位点应当着重予以分析。4)一般的,对于能够获得测序曲线的序列,我们采用专业的测序曲线判读软件对测序峰图进行重新的判读,以得到更高的判读精度和每一个碱基位置的测序质量指标。在通常情况下,我们要求发生序列变异的位点的Phred值(测序碱基质量值)高于2

21、0 13。5)编码区受选择压影响,SNP发生率明显低于平均发生率,因此一般情况下,非编码区或编码区内不改变氨基酸序列的候选SNP比改变氨基酸序列的候选SNP具有更高的存在概率 18。6)消除那些低质量测序区的成簇存在的错配碱基 18。对于发生突变位点两侧的序列,我们要求最低的5bp的匹配 5。7)对于同样造成氨基酸序列变化的候选SNP,使互相替换的氨基酸之间性质相近的变异可能较使性质发生显著变化的变异具有更高的存在概率 18。8)蛋白质结构域与功能域内的氨基酸序列往往高度保守,造成此处氨基酸序列变化的点突变可能是序列错误所致 18。9)对于cSNP所造成的蛋白序列多样性,如果该蛋白种内或种间的

22、同源蛋白之间也存在同样的多样性,则该cSNP具有较高的存在概率 18。3结语以生物信息学的方法进行 SNPs的筛查最主要的是公布的 DNA序列的丰富度。随着各种模式生物的基因组计划的开展,存储在公共数据库中的 DNA序列不断积累。利用生物信息学的方法进行 SNPs的筛查,特别是在目的片断或目的基因的 SNPs的初步筛查上发挥更为重要的作用。纵观人类对 SNP筛查的研究历程,用生物信息学的方法发掘候选的 SNP位点,随后有的放矢的进行实验室验证已经逐渐成为必然。这种发掘模式的实质是对不同实验室、不同样本的综合性分析过程。而它的高效和低成本的优点也体现在对现有数据的充分发掘和利用上。在 SNP筛查

23、的初步阶段,利用生物信息学这一强有力的工具将有助于减少实验室工作的盲目性,并省去许多的重复测序过程,从而节省实验室的时间和经费。可以预见,随着生物信息学的发展,优秀的生物信息学模型和算法的开发和利用,更为有效的 SNPs筛查策略的提出,将加速生物 SNPs的发掘工作的开展,而生物信息学也将会在其中扮演越来越重要的角色。5参考文献:1. Brookes A.J. The essence of SNPs J. Gene ,1999,234(2):1771862. Sachidanandam,R.,Weissman,D.,Schmidt,S.c., et al .A map of human gen

24、ome sequence ariation containing 1.42 million single nucleotide polymorphisms J. Nature 409:9289333. Pui-Yan Kwok. Single Nucleotide Polymorphisms Methods and Protocols M. Humama Press Inc. 2003 4. 张成岗,贺福初.生物信息学方法与实践M.科学出版社.2004.5. Picout-Newberg L., Ideker T.E., Pohl M.G.,et al.Mining SNPs from EST

25、 databasesJ.Genome Res,1999,9:167-1746. Ewing B.,Hiller L.,Wendl M.C.,et al .Base-calling of automated sequencer traces using Phred.Accuracy AssessmentJ.Genome Res, 1998,8:1751857. Ewing B.,Green P., Base-calling of automated sequencer traces using Phred.Error ProbalilitiesJ.Genome Res ,1998,8:186-1

26、948. Gordon D.,Abajian C.,Geeen P.,Consed: A graphical tool for sequence finishingJGenme Res ,1998,8,195-2029. Useche F.J.,Gao G.,Hanafey M.,et al.High throughput identification database storage and analysis of SNPs in EST sequenceJ.Genome Informatics, 2001, 12: 194-20310.Jalving R.,Slot R.,Oost B.A

27、., Chicken single nucleotide polymorphism identification and selection for genetic mappingJ.Poultry Science, 2004,83: 1925-193111.Marth G T,Korf I,Mark D.,et al . A general approach to single-nucletide polymorphism discoveryJ.Nature Genetics,1999,23:452-45512.Schultz J.,Doerks T.,Ponting C.P.,More t

28、han 1,000 putative new human signaling proteins revealed by EST data miningJ ,Nature Genetics, 2000,25:201-20413.Kim H.,Schmid C.J.,Deckerks,Emara M.G.,A doble screening method to identify reliable candidate non-synonymous SNP from chicken Est data J.Animal Genetics ,34:249-25414.Schmid K.J.,Sorense

29、n T.R.,Strack R., Large scale identification and analysis of genome wide single-nucleotide polymorphisms for mapping in Arabiadopsis thaliana J. Genome Research 2003,13:1250-125715.Hauken R.J.,Barris W.C.,Mcwicliam S.M.,et al.An interactive bovine in silico SNP database (IBISS)J.Mammalian Genome,200

30、4,15:819-82716.Marth G.T.,Korf I., Mark D.,et al .A general approach to single nucleotide polymorphism discoveryJ.Nature Genetics, 1999,23: 452 - 45617.TaillonMiller P.,Gu Z.J.,Li Q., et al ,Overlapping Genomic Sequence : A treasure Trove of Single-nucleotide PolymorphismsJ.Genome Research, 1998,8:

31、748-75418.杨伦,沈文飚,陈虹.基于生物信息学的水稻的候选 SNP发掘J.中国水稻科学,2004,18(3):18519119.Morales M.,Roig E.,Monforte A.J.,Single-nucleotide polymorphisms detected in expressed sequence tags of melon(cucumis melo L.)J. Genome,47,2:352-36020.Fahrenkrug S.C.,Freking B.A., Smith T.PL., et al.Single nucleotide polymorphism (SNP) discovey in porcine expressed genesJ.Animal Genetics, 633:186-19521.Fizsimmons C.J.,Savolainen P., Amini G.,et al .Detection of sequence polymorphisms in red junglefowl and white leghorn ESTsJ.Animal Genetics,35 : 391-396

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报