1、细菌种特异性的 16S rDNA 寡核苷酸探针数据库的初步构建蔡正求首都师范大学生物系,北京 100037摘要:核酸二级数据库是生物信息学研究的重要领域,对生命科学的研究和发展起重要作用。目前,国际核酸序列公共数据库中存在大量的细菌16S rDNA序列,本文将利用这些已知细菌的16S rDNA序列,设计细菌种的特异性寡核苷酸探针,将其结果存入数据库,以计算机网络为载体,开发界面友好的通过WWW 浏览器实现对数据库查询的系统,查询结果形象直观,为设计细菌的种特异性寡核苷酸探针提供参考和帮助,从而可加速对细菌分类及鉴定的进程。关键词:细菌 种特异性 16S rDNA 寡核苷酸探针 二级数据库CON
2、STRUCTION DATABASE OF SPECIES-SPECIFIC OLIGONUCLEOTIDE PROBES TARGETED FOR 16S rDNA OF BACTERIAAbstract: Secondary database that play an important role in the research and development of biology is a vital research subject in the field of bioinformatics. At present,there are enormous 16S rDNA sequen
3、ces of bacteria available in the Genbank. In this paper the species-specific oligonucleotide probes for various bacteria according to 16S rDNA have been designed and stored into database. And an user-friendly search system based on computer network has been constructed. This secondary database could
4、 help users to design oligonucleotide probes to classify and identify bacteria.Key works: Bacteria,Species-specific, 16S rDNA, Oligonucleotide probe, Secondary database生物信息学是近年来生物学与计算机科学、信息学及应用数学交叉融合而衍生出的新兴边缘学科。随着人类基因组计划等大型国际项目的实施, 分子生物信息的研究开发和应用已经成为当前一个前沿领域和研究热点。DNA 序列测定技术的完善和应用, 使核酸序列数据库迅速增长。国际上著名
5、的三大核酸序列数据库(EMBL, GenBank 和DDBJ) 的数据量以指数曲线增长,并为其他生物学数据库的建立提供了丰富完善的资源。但这些数据库提供的仅仅是未加工的原始数据,我们称之为一级数据库。这些一级数据库中存在大量的冗余信息,用于解决特殊生物学问题的信息越来越难提取。二级数据库是根据研究任务的需要,通过搜索、查询已知数据库的信息进行加工整理,构建专用的数据库 1。以一级数据库为基础,将它们按照不同使用者的要求,采用计算机技术,归纳、提炼、整理、加工和构建具有特殊生物学意义和专门用途的二级数据库对于生物学研究意义更大。rDNA分子在生物体中普遍存在,生物细胞rDNA分子的一级结构中既具
6、有保守的片段,又具有变化的碱基序列 2。保守的片段反应了生物物种间的亲缘关系,而高变片段则能表明物种间的差异,那些保守的或高变的特征性核苷酸序列则是不同分类级别生物(如科、属、种)鉴定的分子基础。因此可根据rDNA序列设计用于某一种、属、科甚至更大类群范围的微生物的检测或鉴定的探针 3。近几年来,以16S rDNA为靶分子的PCR引物或杂交探针已用于很多细菌的快速鉴定,它已成为细菌系统发育分析及鉴定的最有效和最常用的分子指标 4。随着计算机网络技术的迅速发展, 很多分子生物数据库提供网上查询服务。目前网上分子生物信息数据库的总数已达400 多个。有关寡核苷酸探针的专门数据库有两个,分别是Mic
7、higan State University的寡核苷酸探针数据库(http: /www.cme.msu.edu/OPD/)和Ribosomal Database Project(RDP)数据库(http:/rdp.cme.msu.edu/html/)这两个数据库在应用分子生物学领域提供设计和使用寡核苷酸探针的资料和核糖体相关的数据服务,包括在线数据分析,基于rRNA的系统发育树的构建以及排列和注释rRNA序列。但国内外还没有提供细菌种的特异性寡核苷酸探针及其设计的专门数据库。1 材料和方法1.1 准备数据库系统开发环境采用基于 PC/Linux 的数据库及程序开发环境,在 PC 机上安装Lin
8、ux 操作系统及其它一些软件。PC 机为方正电脑,其配置为Intel CPU2.0GHz/内存 256MB/60G IDE 硬盘。操作系统采用 RedHat Linux8.0,数据库管理系统使用 MySQL,编程语言采用 Perl 和HTML,Web 开发软件为 dreamweaver。1.2 数据库的构建数据库总体上是基于关系数据库模式构建,共包括细菌名称表(mainprobe) 、部分序列排列表(Partial_seq_align)和无种特异性的 16S rDNA 寡核苷酸探针的细菌名称表( nonprobe) 。细菌名称表包含细菌名称(Bacname) ,细菌的特异性寡核苷酸序列(Pro
9、be sequences)和编号(ID) 。部分序列排列表包含细菌的编号(ID)和其特异性寡核苷酸序列所对应的部分序列排列结果(Partial_seq_align) 。无种特异性的 16S rDNA 寡核苷酸探针的细菌名称表包含细菌的编号(ID)和名称(name) 。1.3 数据搜集及处理以美国国立生物医学信息中心(NCBI)的 Genbank 为数据库源,输入关键词“细菌属名 16S r”进行查询 6-7,得到同一个属内所有种的细菌 16S rDNA 序列,以 fasta 格式显示查询结果,选择长度在800bp 以上的序列以 fasta 格式保存为文本文件。利用 clustal x 软件进行
10、多序列对位排列,找到能反应种的特异性序列 8-9,然后使用 Bioedit 软件对排列后的序列进行编辑。选择符合以下要求的序列 10:(1) 长度在 15-50 之间,较短探针特异性较差,较长则增加非特异性杂交;(2) 碱基成分为 G+C 含量在 40-60mol%之间,超出此范围会增加非特异性杂交;(3) 序列内不存在互补区,即不含有大于 4 个碱基反向互补配对,否则会出现抑制探针杂交的“发夹”状结构;(4) 没有单一碱基的连续出现(大于 4 个,如-GGGGG-) 。然后通过 blastn 和 check-probe 程序与已知的各种基因序列进行同源性比较和对此特异性序列进行评价,选择特异
11、性较强的序列。使用 perl 语言编写程序对 clustal x 和 Bioedit 软件分析的结果进行处理,生成预定的数据格式(Genbank 登录号#细菌名称,DNA 序列:,共 30 个左右这样的数据依次排列) ,将结果存入数据库。数据格式如下图所示:图 1 数据库中多序列排列结果数据格式1.4 编写程序实现对数据库的查询及管理为更加直观地显示细菌种的特异性寡核苷酸序列,利用 perl和 CGI(公用网关接口)技术开发一个可通过 web 对数据库进行查询的系统,动态生成界面友好的查询页面。2 结果2.1 数据库的特点数据库使用英文作为主要语言,方便与国际上的同类数据库进行接轨以及与国际同
12、类数据库交换、共享数据。数据库具有良好的操作界面。而且,本数据库由于使用服务器端 Perl 编程技术,对客户端的浏览器没有特殊要求,支持用户使用各种浏览器对数据库进行访问,并且都能较好地显示结果。数据库的具体操作界面见图 2到图 4。图 2 数据库主页2.2 数据库的功能此数据库为设计细菌种特异性的 16S rDNA 寡核苷酸探针提供参考和帮助,从而达到加速对细菌进行分类及鉴定的目的。输入细菌名称查询,得到细菌的种特异性 16S rDNA 寡核苷酸序列以及此序列所对应的设计探针时的多序列排列结果,并且支持两种查询方式:准确查询和模糊查询。图 3 查询结果页面查询结果说明:Bacteria Na
13、me:细菌名称;Probe Sequence:该细菌的种特异性寡核苷酸探针;Partial Seqence Align:点击它所对应的链接,显示此寡核苷酸探针所对应的部分 Clustal 排列结果,此结果包含探针序列及其左右两端的部分序列,因此可根据不同的要求对探针序列进行调整;Whole Seqence:点击它所对应的链接,则下载此寡核苷酸探针所对应的全序列,下载的序列可以用 Clustal x 或 Bioedit 打开;Blastn:点击它所对应的链接,用 Blastn 程序对此探针序列在GenBank 数据库中进行同源性检索;Check_Probe:点击它所对应的链接,用 Check_P
14、robe 程序对此探针序列进行特异性评价。图 4 探针所对应的多序列排列页面多序列排列页面说明:左边 Genbank Access number 所对应的列代表用 Clustal 进行多序列对位排列时所用细菌的 Genbank 登录号,中间的列代表用Clustal 进行多序列对位排列时所用细菌的名称。右边的列是用Clustal 进行多序列对位排列的结果。3 讨论细菌种特异性的 16S rDNA 寡核苷酸探针数据库是一个简洁的,查询结果形象直观的专用二级数据库,国内外尚未报道这种数据库,其查询结果形象直观,ATGC 四种碱基分别用红绿黄蓝四种不同的颜色来表示,特异性序列一目了然(见图 4) ,可
15、以快速进行细菌种的特异性寡核苷酸探针的设计,省去了从网上搜索序列,对序列进行多序列对位排列比较,寻找特异性序列等一系列过程,从而节约了大量时间。数据库中已经有迄今为止能设计种特异性探针的大部分细菌的特异性的 16S rDNA 寡核苷酸序列(大约 200 种细菌) 。在设计细菌的 16S rDNA 寡核苷酸探针时,我们只设计了 Genbank 中一个种含有三条及三条以上 16S rDNA,并且长度大于 800bp 的细菌的种特异性的 16S rDNA 寡核苷酸探针,太少的序列(少于三条)或者太短的序列在用 clustal x 进行多序列对位排列比较、寻找特异性序列时没有意义。由于目前绝大部分(9
16、0以上)种的细菌的 16S rDNA 序列太少,只有一条或两条,以及相当一部分的细菌在Genbank 中没有 16S rDNA 序列,因而无法设计探针,如Paenibacillus chibensis,Paenibacillus daejeonensis 等细菌。但由于每周都有大量新的细菌的 16S rDNA 提交到 Genbank 等公共数据库中,所以,在补充了新的数据后对该类细菌就有可能能设计16S rDNA 寡核苷酸探针,因此,需要定期从网上下载新的数据,进行分类整理,更新本地数据库。数据库的规模也因此会不断扩大,考虑到本数据库这一特点,使用了功能强大而且免费的 MySQL 数据库管理系
17、统。另外,根据 16S rDNA 序列 clustal 多序列对位排列比较的结果,发现一些细菌不存在明显的特异性序列,如 Bacillus simplex,Bacillus macroides 等细菌, 因此不能设计这些细菌的种特异性的 16S rDNA 寡核苷酸探针,需要用其它的方法对这些细菌进行分类鉴定。根据现有数据的统计结果,这样的细菌大约占50。除了16S rDNA外,细菌的其它DNA序列也可以用来设计种特异性的寡核苷酸探针,考虑到这一点,本数据库以后也将提供其它的细菌种特异性的非16S rDNA寡核苷酸探针,以便和16S rDNA寡核苷酸探针互补,从而能够更准确的对细菌进行分类鉴定。
18、同时,细菌有不同的分类水平,本数据库以后也将收录细菌其它分类水平的特异性寡核苷酸探针,如科特异性寡核苷酸探针,属特异性寡核苷酸探针等,从而使数据库更完善,更有实用价值。4 附录 本数据库的网址为:http:/probe.c 。参 考 文 献1 王建民,等.水稻矮缩病毒基因组数据库的构建,微生物学报, 2001,41(1):43-48.2 李阜棣等主编.微生物学.中国农业出版社,2000,115.3 沈萍主编.微生物学.高等教育出版社,2000,334.4 Delong EF,et al.Phylogenetic strains: ribosomal RNA-based probes for t
19、he identification of single cellsJ .Science ,1989,243:1360-1363.5 Tadashi M,et al.16S rRNA-Targeted identification of cyanobacterial genera using oligonucleotide-probes immobilized on bacterial magnetic particles.J.Applied Phycology ,2001,13:389-394.6 蔡妙英等主编.细菌名称(第二版). 科学出版社,1996,1782.7 George M. Ga
20、rrity, et al. Taxonomic outline of the prokaryotes Bergeys Manual of Systematic Bacteriology, second edition. 2002, 293-364.8 Timothy A,et al.Comparative Analysis of Nitrifying Bacteria Associated with Freshwater and Marine Aquaria.Applied and Environmental Microbiology.1996,28882896.9 张一凡,等.利用种特异性寡核苷酸探针鉴定5种人源双歧杆菌的初步研究.中国食品卫生杂志,2001,13(3) :3-7. 10 卢圣栋主编.现代分子生物学试验技术. 高等教育出版社,1993,156.