1、中华按蚊 CYP4G17基因的鉴定及生物信息学分析*闫正文,张玉娟,周勇,陈斌(重庆师范大学昆虫与分子生物学研究所重庆市动物生物学重点实验室,重庆 401331)摘要:细胞色素 P450酶系广泛分布于所有需氧生物体中,参与生物体内多种内源性物质和外源性物质的代谢,因其在昆虫抗药性中发挥重要作用,而受到广泛关注。本研究基于中华按蚊(Anopheles sinensis)转录组,通过同源性搜索鉴定出一条中华按蚊 CYP4家族序列,生物信息学分析将该基因命名为AsCYP4G17(GenBank 登录号:KP004246) ,该序列全长1962 bp,其中编码区1671 bp,编码556个氨基酸。同源
2、性分析表明该基因与冈比亚按蚊 CYP4G17氨基酸序列相似性最高(Identity=89%, Similarity=94%)。该基因编码的蛋白质相对分子质量为63.48 kD,等电点为7.70。该蛋白第2039 位氨基酸为疏水区,蛋白质亚细胞定位显示该蛋白质位于细胞质中。基因结构分析显示,该基因含有两个相位2型内含子。本研究为进一步揭示中华按蚊 CYP4G17的功能奠定了基础 , 对阐明昆虫杀虫剂抗性机理具有一定的科学意义。关键词:中华按蚊;CYP4G17;鉴定;生物信息学分析疟疾是一种以按蚊为传播媒介的虫媒传染病,是最重要的媒介传播疾病,是全球主要的健康问题1。仅2012年,全球就有 2.0
3、7亿人感染疟疾,造成约62.7万人死亡。蚊媒的控制是防止疟疾传播的有效方法。目前蚊媒控制主要通过室内滞留喷洒和杀虫剂处理过的蚊帐2。然而随着杀虫剂的广泛使用,许多蚊媒已经对杀虫剂产生了抗药性。这对蚊媒传播疾病的控制造成了重大的威胁,尤其是对疟疾的控制。因此,蚊媒对杀虫剂的抗性机制已经成为一个迫切需要研究的课题。中华按蚊(Anopheles sinensis)是我国和东南亚地区主要的疟疾传播媒介3 ,研究表明其已对多种杀虫剂产生了一定程度的抗药性。而且在中国和韩国,中华按蚊已对拟除虫菊酯表现出高水平的耐药性4。昆虫对杀虫剂的抗性机制是一个非常复杂的问题,主要包括行为抗性和生理抗性,如蚊虫倾向于回
4、避杀虫剂,表皮穿透性的降低,靶标位点敏感度降低和解毒酶活性增强。而在蚊虫中抗性主要与靶标位点敏感度降低和解毒酶活性增强有关5。昆虫体内主要包括3类解毒酶:细胞色素 P450(CYPs)、谷胱甘肽-S-转移酶(GSTs) 和羧酸酯酶 (CCE)6。其中,参与杀虫剂代谢的细胞色素 P450是昆虫产生抗药性的主要机制,该机制也造成大多数媒介昆虫对杀虫剂产生高水平抗性和交互抗性3 。就目前广泛使用的菊酯类杀虫剂而言,昆虫对该类杀虫剂产生抗药性的主要原因为细胞色素 P450表达量上升而介导的杀虫剂代谢作用 5, 7。通常认为,CYP6家族成员与昆虫抗药性密切相关,但近年来研究表明 CYP4家族成员也可能
5、与昆虫抗药性相关8。已有研究表明,阿拉伯按蚊(An. arabiensis)中 CYP4G16和 CYP4H24与溴氰菊酯抗性相关,致倦库蚊(Culex quinquefasciatus)中 CYP4H34与氯菊酯抗性相关,尖音库蚊(Culex pipiens)中 CYP4H21与溴氰菊酯抗性相关5。目前只有少量与中华按蚊抗性相关的基因被报道。本研究基于中华按蚊转录组数据,通过同源性搜索得到一条 CYP4家族序列进行了深入研究,分析了其序列特征、蛋白质结构,构建了系统发育树(neighbor-joining method, NJ),并对其基因结构进行预测。本研究为进一步研究中华按蚊 CYP4G
6、17基因的功能奠定了理论基础,对阐明昆虫杀虫剂抗性机理具有潜在的科学意义。1 材料与方法1.1 数据来源中华按蚊转录组数据(SRA 登录号:SRA073189)来自于重庆师范大学昆虫与分子生物学研究所,中华按蚊基因组数据、冈比亚按蚊(An. gambiae)、达林按蚊(An. darlingi)、埃及伊蚊(Aedes aegypti)和黑腹果蝇(Drosophila melanogaster)等昆虫的 P450同源序列分别在 VectorBase 数据库(https:/www.vectorbase.org/)和 NCBI 的 GenBank 数据库(http:/www.ncbi.nlm.nih
7、.gov/)两个数据库中下载。1.2 序列鉴定以冈比亚按蚊的 CYP4G17氨基酸序列作为 query 序列,TBLASTN(E-value1e-5)搜索中华按蚊转录组数据库。搜索得到的候选基因进行手工校对后,NCBI 在线 BLASTP 检索 nr 库,进一步完成序列的验证。1.3 序列分析鉴定中华按蚊 CYP4G17 cDNA 序列的开放阅读框并翻译成氨基酸序列使用软件 DNAMAN7.0;使用软件 BioEdit 统计 cDNA 序列的碱基组成;使用 BLAST 工具(http:/www.ncbi.nlm.nih.gov/BLAST/) 进行序列同源性检索;利用 CodonW 软件分析密
8、码子使用率;使用ClustalW(http:/www.phylogeny.fr/version2_cgi/one_task.cgi?task_type=clustalw)对中华按蚊 CYP4G17和其他昆虫同源 P450序列进行多重序列比对,并用 Color Align Conservation 软件(http:/www.bioinformatics.org/sms2/color_align_cons.html)进行染色;利用 ProtParam 软件(http:/web.expasy.org/protparam/)预测蛋白的基本理化性质;蛋白质疏水性分析使用 ProtScale 软件 (ht
9、tp:/www.expasy.org/cgi-bin/protscale.pl);蛋白质跨膜区分析使用 TMHMM 软件(http:/www.cbs.dtu.dk/services/TMHMM/);蛋白质亚细胞定位使用软件TargetP(http:/www.cbs.dtu.dk/services/TargetP/);信号肽预测使用 SignalP4.1软件(http:/www. cbs.dtu.dk/services/SignalP/);蛋白的二级结构预测使用软件SSPro4.0(http:/scratch.proteomics.ics.uci.edu/);蛋白质三级结构预测需先通过 PSI-
10、BLAST 搜索PDB(Protein Data Bank)数据库,找到与中华按蚊 CYP4G17相似性高的蛋白后,再采用 SWISS-MODEL(http:/swissmodel.expasy.org/)进行同源模建及3D 结构预测。1.4 系统发育分析根据同源性分析结果选择有代表性的昆虫 P450序列,以黑腹果蝇 CYP4G1序列为外群, 采用邻接法(neighbor-joining method,NJ)分析中华按蚊 CYP4G17序列与其它代表性的昆虫 P450序列的系统发育关系,使用 MEGA5.0软件9 构建系统发育树,1000 次重复计算自展分析值。1.5 基因结构分析对搜索得到的
11、4种蚊虫的 CYP4G 基因进行基因结构预测,使用 FGENESH10(http:/ GeneWise(http:/www.ebi.ac.uk/Tools/psa/genewise/)两种软件,并分析4个基因的结构和内含子类型。2 结果与分析2.1 cDNA 序列分析通过同源性搜索得到 ID 号为 Unigene14353_5的中华按蚊转录组基因序列,其与冈比亚按蚊CYP4G17基因的一致率为88.06%,同源性最高,并且该 cDNA 推断的氨基酸序列(图2.1)中含有昆虫P450蛋白的 5个保守结构域(WxxxR、GxE/DTT/S、ExLR、PxxFxPE/DRF 、PFxxGxRxCxG
12、/A) 11。该序列共包含1962 bp,通过生物信息学分析发现,其中编码区1671 bp,具备全长序列的基本保守区,具有起始子(ATG) 和终止子 (TGA),编码 556个氨基酸,且在该氨基酸序列的 354-366位发现 CYP4家族的特征序列 EVDTFMFEGHDTT 12,故将该 cDNA 命名为 AsCYP4G17(GenBank 登录号:KP004246) 。注:图中方框表示翻译起始密码子和终止密码子,左边数字表示核苷酸和氨基酸编号。阴影部分表示保守结构域,下划线表示 CYP4家族的特征序列。Note:The start and stop codon are boxed, the
13、 numbers on the left are for the positions of nucleotides and amino acids onthe sequences. Residues in conserved P450 motifs are are shaded, and characteristics sequence of CYP4 family is underlined.图2.1 中华按蚊 CYP4G17 cDNA 序列和推断的蛋白质序列Fig.2.1 The sequence of AsCYP4G17 cDNA and deduced protein中华按蚊 CYP4
14、G17 cDNA 序列的 GC 和 AT 含量分别为58.65%和41.35%,AT 和 GC 偏斜分别为0.10和0.02,说明该基因碱基组成偏好 G 和 A。RSCU 值反映密码子在所编码的氨基酸的同义密码子中出现的频率3 ,该值越大,表明相应的密码子出现的频率越大,反之则越小。结果表明 UGA、CUG、CCG 等密码子出现的频率较高,而CUA、AGC、UCU 等密码子出现的频率较小(表2.1) 。表2.1 中华按蚊 CYP4G17核酸序列相对同义密码子统计表Tab. 2.1 Relative synonymous codon usage (RSCU) of AsCYP4G17Codon
15、RSCU Codon RSCU Codon RSCU Codon RSCUUGA 3 UCG 1.69 CUA 0.74 UCA 0.19CUG 2.84 ACG 1.69 AUU 0.65 CGA 0.17CCG 2.62 UAC 1.68 CCC 0.62 AGG 0.17CGC 2.5 GAG 1.62 GGG 0.61 UUU 0.16GUG 2.46 AAC 1.57 GAU 0.47 ACU 0.15AUC 2.27 GAC 1.53 CCA 0.46 ACA 0.15CGG 2.17 GCC 1.41 AAU 0.43 CAA 0.13AGC 2.06 GGU 1.33 GAA
16、0.38 GCU 0.12ACC 2 GCG 1.29 UUG 0.32 UUA 0.11CAC 2 GCA 1.18 UAU 0.32 AAA 0.11UGC 2 UCC 1.13 GUU 0.31 AUA 0.08AAG 1.89 GUC 1.03 CCU 0.31 UAA 0CAG 1.88 AUG 1 GGA 0.24 UAG 0UUC 1.84 UGG 1 CUU 0.21 CAU 0GGC 1.82 CGU 1 GUA 0.21 UGU 0CUC 1.79 AGU 0.75 UCU 0.19 AGA 02.2 同源性分析将中华按蚊 CYP4G17序列作为询问序列,在线 BLASTP
17、 搜索得到90 多个同源序列,与冈比亚按蚊CYP4G17氨基酸序列相似性最高,一致率为89%;其次是达林按蚊、埃及伊蚊,其一致率分别为86%、80%(表2.2) 。表2.2 中华按蚊 CYP4G17与其它昆虫 P450基因氨基酸序列的一致率和相似率Tab. 2.2 The identity and similarity between AsCYP4G17 and its homologs P450 from other insect species基因名 Gene name 物种 Species GenBank 登录号 GenBank Accession No. 一致率(%)Identity
18、(%)相似率(%)similarity (%)CYP4G17 冈比亚按蚊 An. gambiae XP_555875.4 89% 94%CYP4G15 达林按蚊 An. darlingi ETN67528.1 86% 91%CYP4G35 埃及伊蚊 Aedes aegypti XP_001659149.1 80% 88%CYP4G15 致倦库蚊 Culex quinquefasciatus XP_001869039.1 79% 89%CYP4G33 摇蚊 Chironomus tentans AAW78325.1 64% 80%CYP4G48 六星灯蛾 Zygaena filipendulae
19、 ACZ97414.1 61% 77%CYP4G49 烟草天蛾 Manduca sexta ADE05583.1 62% 76%CYP4G44 丽蝇蛹集金小蜂 Nasonia vitripennis NP_001165993.1 60% 76%CYP4G24 家蚕 Bombyx mori BAM73879.1 61% 75%CYP4G23 家蚕 Bombyx mori BAM73905.1 61% 76%CYP4G29 马铃薯叶甲 Leptinotarsa decemlineata AAZ94273.1 59% 77%CYP4G19 德国小蠊 Blattella germanica AAO20
20、251.1 58% 74%利用推导的中华按蚊 CYP4G17氨基酸序列与4 种序列一致性较高的蚊虫 CYP4家族的序列(表2.2 )进行 ClustalW 多重序列比对并建立同源序列比对图(图2.3) 。通过同源序列比对图可知5 条序列都具有典型昆虫 P450蛋白的五个保守结构域(WxxxR、GxE/DTT/S、ExLR、PxxFxPE/DRF 、PFxxGxRxCxG/A) ,且 Meander 区(PxxYxPE/DRF)发生了氨基酸的替换,该区域第9位的苯丙氨基酸被苏氨酸替代。2.3 编码氨基酸序列分析2.3.1 基本理化性质分析通过分析得到 CYP4G17蛋白的分子式为 C2850H4
21、517N775O817S24,分子量约为63.48 kDa,理论等电点为 7.70;在 CYP4G17氨基酸组成中,亮氨酸 (Leu)所占比例最高,达到10.30%,而半胱氨酸(Cys) 所占比例最低,为0.70%(表2.3) ;该蛋白的脂肪指数为92.39,负电荷的残基(Asp+Glu)的总电荷为72,相应的正电荷残基(Arg+Lys)总电荷为73;总平均亲水性是-0.260,故推测其为亲水性蛋白;预测蛋白的不稳定参数为46.79,故认为该蛋白为不稳定蛋白。表2.3 中华按蚊 CYP4G17蛋白的氨基酸组成序列Tab. 2.3 Composition of amino acids of As
22、CYP4G17氨基酸数目比例氨基酸数目比例氨基酸数目比例氨基酸数目比例Leu 57 10.30% Arg 36 6.50% Pro 26 4.70% Tyr 19 3.40%Glu 42 7.60% Ala 34 6.10% Thr 26 4.70% Gln 16 2.90%Val 39 7.00% Gly 33 5.90% Phe 25 4.50% His 15 2.70%Ile 37 6.70% Ser 32 5.80% Asn 23 4.10% Trp 5 0.90%Lys 37 6.70% Asp 30 5.40% Met 20 3.60% Cys 4 0.70%注:图中用红框标出的为
23、 P450的5个保守结构域,黑色表示氨基酸序列保守性为100%。 As、Ag、Ad 、Ae 和 Cq 分别表示中华按蚊、冈比亚按蚊、达林按蚊、埃及伊蚊和致倦库蚊。Note:Red rectangles denoted five conserved domains, and amino acids with 100% identity were marked with black shade. As, Ag, Ad, Ae and Cq denoted An. sinensis, An. gambiae, An. darling, Aedes aegypti and Culex quinquef
24、asciatus respectively.图2.3 中华按蚊 CYP4G17序列与 4种蚊虫 CYP4G 序列比对Fig. 2.3 Alignment of AsCYP4G17 with other 4 homologous mosquito CYP4G2.3.2 疏水区分析通过 ExPaSy 软件的 ProScale 功能分析,得到中华按蚊 CYP4G17蛋白的 N 端20-39位氨基酸之间有一个典型的疏水区域(图2.3) 。图2.3 中华按蚊 CYP4G17蛋白序列的疏水曲线Fig. 2.3 Hydrophobicitiy profile of AsCYP4G172.3.3 跨膜区分析采
25、用 TMHMM 软件预测蛋白的跨膜区域,发现 CYP4G17具有两个跨膜片段,分别位于20-39 和46-68位(图2.4) ,预测该蛋白为膜结合蛋白。图2.4 中华按蚊 CYP4G17跨膜区预测Fig. 2.4 The deduced transmembrane domain topology model of AsCYP4G172.3.4 信号肽预测中华按蚊 CYP4G17蛋白的信号肽预测使用 SingalP 软件,该蛋白 C 值是0.127,Y 值0.130 ,S 值0.281 ,不存在信号肽切割位点 ,未发现信号肽存在(图 2.5) 。图2.5 中华按蚊 CYP4G17的信号肽分析Fi
26、g. 2.5 Singal peptide prediction of AsCYP4G172.3.5 亚细胞定位蛋白质亚细胞定位软件 TargetP 预测显示该蛋白为分泌通路,即分泌到细胞周质,故定位在细胞质。2.3.6 蛋白的二级结构及三级结构预测蛋白质二级结构预测使用 SSPro4.0软件,结果显示该蛋白二级结构中 -螺旋、无规卷曲和 -折叠分别占54.24%,37.59%和9.17%,可以发现 -螺旋占比最多。通过PSI-BLAST 的搜索,AsCYP4G17 与人微粒体 CYP2C19氨基酸序列(PDB 编号:4gqs.pdb)一致性为32.0%,被选作同源模建的模板,通过 SWISS
27、-MODEL 模建预测得到 AsCYP4G17的蛋白质三级结构(图2.6) 。图2.6 中华按蚊 CYP4G17蛋白的三级结构预测分析Fig. 2.6 The tertiary structure of AsCYP4G172.4 系统发育分析根据同源性分析结果选择了12个氨基酸序列(包括 AsCYP4G17) ,以黑腹果蝇 CYP4G1作为外群,采用邻接法构建系统发育树,并用 bootstrap 1000次重复对其分支作了统计检测(图 2.7) 。结果表明中华按蚊 CYP4G17与冈比亚按蚊的 CYP4G17最近,bootstrap 值达99%,聚成一支。注:使用黑腹果蝇 CYP4G1作为外群
28、,Bootstrap 值标记在树的分支节点上。各物种的中文名及其序列的基因库登录号见表2.2。Note:The DmCYP4G1 was used as outgroup, and bootstrap values are indicated on each branch. The Chinese names of species and their GenBank accession numbers of P450 were listed in Tab.2.2.图2.7 13种昆虫 P450系统发育树Fig. 2.7 The phylogenetic tree of P450s of 13
29、insect species2.5 基因结构分析基因结构预测发现 AsCYP4G17基因有2个相位2型内含子,与致倦库蚊的相同,与冈比亚按蚊和达林按蚊的不相同。外显子1、外显子 2、外显子3、内含子1、内含子 2长度范围为分别为662680 bp、836893 bp、161164 bp、 66128 bp、6198 bp(表2.4) 。表2.4 4种蚊虫 CYP4G 亚家族基因结构分析Tab.2.4 The gene structure analysis among CYP4Gs of 4 mosquito species基因名 GenBank 登录号外显子长度(bp) 内含子长度(bp) 内
30、含子相位(0/1/2)Gene name GenBank Accession No. Exon size Intron size Intron phraseAsCYP4G17 ATLV01017222.1 671/836/164 66/65 2/2AgCYP4G17 AAAB01008963.1 677/851/161 128/74 2/1AdCYP4G15 ADMH02000163.1 680/893/161 75/98 2/1CqCYP4G15 AAWU01039145.1 662/851/161 83/61 2/23 讨论细胞色素 P450是最古老最庞大的超基因家族之一,包括多个基因家族
31、,在昆虫体内各类杀虫剂和其他外源性和内源性化合物的代谢中发挥重要作用13。其中 CYP6家族基因被认为与杀虫剂抗性密切相关14,但有研究表明 CYP4家族的高水平转录与抗性也相关。本研究基于中华按蚊转录组数据,通过同源性搜索获得 AsCYP4G17基因,该序列编码区包含1671 bp,编码556个氨基酸,分子量约为63.48 kDa,等电点为7.70,其编码氨基酸序列的354-366 位发现 CYP4家族的特征序列 EVDTFMFEGHDTT,推断该基因属于 CYP4家族基因。同源性分析发现,该基因与冈比亚按蚊 CYP4G17相似性最高,达89%,其次是与达林按蚊 CYP4G15,相似性为86
32、%(表2.3) ,进一步表明该基因为 CYP4G 亚家族基因。近来,有研究表明中华按蚊抗性品系中 CYP4家族的基因有明显的高表达15,其中包括 CYP4G16, CYP4G17 和 CYP4H15,这说明中华按蚊 CYP4G17可能与抗性有关,但目前对其的研究相对较少,需进一步的研究来从功能上证明其与抗性相关。在 AsCYP4G17氨基酸序列的354-366位发现 CYP4家族的特征序列 EVDTFMFEGHDTT,但其第4位氨基酸由异亮氨酸代替了苏氨酸(图2.1) 。与其它4种蚊虫 CYP4家族基因多重序列对比发现,在5种蚊虫中都发生了该氨基酸的替换(图2.3) 。五个保守结构域中的 Me
33、ander 区(PxxYxPE/DRF)也发生了氨基酸的替换,该区域第9位的苯丙氨基酸被苏氨酸代替了。以上保守区氨基酸的替换, 可能是 CYP4G 亚家族的特征序列。有研究认为氨基酸替换可能与昆虫 P450介导的抗性有关 16,以上保守区氨基酸的替换是否与不同昆虫细胞色素 P450功能差异相关有待进一步研究。采用 NJ 法构建系统发育树,中华按蚊的 CYP4G17与冈比亚按蚊的 CYP4G17、达林按蚊的CYP4G15聚在一支,bootstrap 值均大于90%,表明它们的亲缘关系最近。而与蚊科及其它昆虫 CYP4相似性在60%80% 之间。该结果进一步证明了该序列确实为 CYP4G 亚家族基
34、因。基因结构分析发现,中华按蚊与其他3种蚊虫的内含子插入位置基本相同,3 个外显子的长度也基本相同,但是内含子的长度和相位略有不同。昆虫细胞色素 P450基因内含子与进化的关系有待深入探讨 17。本研究报道的中华按蚊 CYP4G17 cDNA 序列进一步丰富了 P450基因的基础数据,对后续研究该基因的功能具有重要意义。但该基因是否与中华按蚊抗药性相关,还需通过实验来从功能上进行验证。 。参考文献:1 杨永焱,王秋生.疟疾预防的现状及进展J.海南医学.2014(04):547-549.Yang YY,Wang QS.Status and progress of malaria preventi
35、onJ.Hainan Medical Journal.2014(04): 547-549.2 World Health Organization.World malaria reportR.Geneva:WHO,2013.3 车燕飞,张玉娟,唐尧,等.中华按蚊 CYP6P5基因的生物信息学鉴定及特征分析J.中国媒介生物学及控制杂志.2014(03):205-210.CHE YF,ZHANG YJ,TANG Y,et al.Bioinformatic identification and characterization of CYP6P5 genein Anopheles sinensisJ.Chinese Journal of Vector Biology and Control.2014(03):205-210.4 Chen B,Zhang YJ,He Z,et al.De novo transcriptome sequencing and sequence analysis of the malaria vector Anopheles sinensis (Diptera: Culicidae)J.Parasites CYP4G17; identification; bioinformatics analysis