1、蛋白质的分子设计就是为有目的的蛋白质工程改造提供设计方案。虽然经过漫长岁月的进化,自然界已经筛选出了数量众多、种类各异的蛋白质,但天然蛋白质只是在自然条件下才能起到最佳功能,在人造条件下往往就不行,例如工业生产中常见的高温高压条件。因而需要对蛋白质进行改造,使其能够在特定条件下起到特定的功能。蛋白质的分子设计又可按照改造部位的多寡分为三类:第一类为“小改”,可通过定位突变或化学修饰来实现;第二类为“中改”,对来源于不同蛋白的结构域进行拼接组装;第三类为“大改”,即完全从头设计全新的蛋白质(de novo design)。有关全新蛋白质设计的内容请参见文献,本文不赘述。常见的蛋白质工程改造包括提
2、高蛋白的热、酸稳定性,增加活性,降低副作用,提高专一性以及通过蛋白质工程手段进行结构-功能关系研究等。由于对蛋白质结构 -功能关系的了解不够深入,成功的实例还不很多,因此更需要在蛋白质分子设计的方法学上开展深入研究。蛋白质的分子设计可分为两个层次,一种是在已知立体结构基础上所进行的直接将立体结构信息与蛋白质的功能相关联的高层次的设计工作,另一种是在未知立体结构的情形下借助于一级结构的序列信息及生物化学性质所进行的分子设计工作。此处只探讨第一类分子设计,因为在利用三级结构信息的同时也运用了一级结构序列及有关生化信息,第一类的分子设计工作实际上已包含了第二类工作,而后者实际上是在不得已的情形下所进
3、行的努力。蛋白质分子设计的过程简单说来就是首先建立所研究对象的结构模型,在此基础上进行结构-功能关系研究,然后提出设计方案,通过实验验证后进一步修正设计,往往需要几次循环才能达到目的。一般的分子设计工作可以按以下五个步骤进行:(1)建立所研究蛋白质的结构模型,可以通过 X 射线晶体学、二维核磁共振等测定结构,也可以根据类似物的结构或其他结构预测方法建立起结构模型。(2)找出对所要求的性质有重要影响的位置。同一家族中的蛋白质的序列对比、分析往往是一种有效的途径。需要认真考虑此种性质受哪些因素的影响,然后逐一对各因素进行分析,找出重要位点,这是分子设计工作的关键。(3)选择一系列的在(2)中所选出
4、位点上改变残基所得到的突变体,一方面使蛋白质可能具有所要求的性质,另一方面又尽量维持原有结构,使其不做大的变动。尽量在同源结构中此位点已有的氨基酸残基序列中进行选择,同时考虑残基的体积、疏水性等性质的变化所带来的影响。(4)预测突变体的结构。(5)定性或定量计算优化所得到的突变体结构是否具有所要求的性质。能否成功地进行分子设计,除了要求有好的计算机软件和高质量的力场以外,还要求工作者有一个坚实的结构化学和物理化学基础,同时对所研究的问题有一个深入细致的了解。要 蛋白质工程是生物技术专业的一门专业课,是四大生物工程之一。蛋白质分子设计贯穿于蛋白质工程的整个过程,是蛋白质工程的重要组成部分和中心环
5、节。蛋白质分子设计是理论和实验并重并交叉进行的循环。本文在简要介绍蛋白质分子设计理念和分类的基础上,以 Paracelsus 挑战为范例,对蛋白质分子设计原则、方法和过程进行了初步的论述。关键词 蛋白质工程 蛋白质分子设计 Paracelsus 挑战中图分类号:G642.3 文献标识码:A 文章编号: 1818-6539(2009)07-(0050 )- ( 03) 蛋白质是一切生命的物质基础,是机体细胞的重要组成部分。经过漫长岁月的进化,自然界已经筛选出了数量众多、种类各异的蛋白质,但天然蛋白质只是在适宜的生理条件下才能很好的发挥功能,在其他条件下,例如工业生产中常见的高温高压条件,往往不能
6、正常发挥功能。因而需要对蛋白质进行改造,使其能够在特定条件下发挥功能。定点突变和 PCR 技术的发展使这种改造成为可能。20 世纪 80 年代初,蛋白质工程和蛋白质分子设计应运而生。蛋白质工程是以结构生物学与生物信息学为基础,以创造性能更适用的蛋白质分子为目的,以基因重组技术为主要手段,对天然蛋白质分子进行设计和改造1。蛋白质分子设计则是指从头设计新的蛋白质分子或者在蛋白质已知结构的基础上通过适宜的改变来制备新的蛋白质分子。蛋白质的分子设计可分为两个层次:一种是在已知立体结构基础上所进行的直接将立体结构信息与蛋白质的功能相关联的高层次的设计工作;另一种是在未知立体结构的情形下借助于一级结构的序
7、列信息及生物化学性质所进行的分子设计工作。蛋白质的分子设计又可按照改造部位的多寡分为三类:第一类为“小改”,即对已知结构的蛋白质进行少数几个残基的修饰、替换或删除等,可通过定位突变或化学修饰来实现;第二类为“中改”,对来源于不同蛋白的结构域进行裁剪拼接组装;第三类为“大改”,即完全从头设计全新的蛋白质(de novo design)2。蛋白质分子设计的过程简单说来就是首先建立所研究对象的结构模型,在此基础上进行结构-功能关系研究,然后提出设计方案,通过实验验证后进一步修正设计,往往需要几次循环才能达到目的。所以蛋白质分子设计是在计算机模拟的基础上构建突变基因,进而获得突变蛋白质产品,然后进行功
8、能验证。没有达到目标就再次循环。因此蛋白质分子设计是理论和实验并重并交叉进行的循环。常见的蛋白质工程改造包括提高蛋白的热、酸稳定性,增加活性,降低副作用,提高专一性以及通过蛋白质工程手段进行结构-功能关系研究等。由于对蛋白质结构-功能关系的了解不够深入,成功的实例还不是很多,因此更需要在蛋白质分子设计的方法学上开展深入研究。1994 年, Rose 在 protein folding: predicting predicting 这一篇展望中预测在下一个 10 年内可以解决通过蛋白质一级序列预测蛋白质三维结构的结论3。虽然这个结论并没有实现,可是他在这篇展望中提出的一个挑战却引起了关注并很快被
9、完成4。这就是以 16 世纪瑞士名医 Paracelsus(帕拉切尔苏斯)命名的 Paracelsus 挑战。帕拉切尔苏斯(14931541),原名菲利普斯奥雷奥卢斯特奥夫拉斯图斯邦巴斯特冯霍恩海姆(Philippus Aureolus Bombastus von Hohenheim),16 世纪瑞士有名的医学家,他自己取名帕拉切尔苏斯(意为赛过 1 世纪罗马名医切尔苏斯)。发现并使用多种新药,促进了药物化学的发展。他对现代医学,尤其是精神病治疗的兴起都做出了贡献,提出了剂量决定是否为毒药的著名理论。同源蛋白质或者具有相似氨基酸组成和序列长度的蛋白质一般具有相似的空间结构。但是却有一些具有相似
10、氨基酸组成和序列长度的蛋白质具有不同的折叠结构如核酸酶和溶菌酶。所以通过选择改变少部分适宜残基的途径改变蛋白质的构象。Paracelsus 挑战的内容就是要求在不改变一个球蛋白 50%序列的前提下把其从一种构象转换为另一种构象3。因帕拉塞尔苏斯曾经说过:所有的物质都是毒药,所有的物质都不是毒药,唯一的区别是它们的剂量(All substances are poisons:there is none which is not a poison. The right dose differentiates a poison and a remedy)。所以这个挑战命名为Paracelsus 挑战。
11、Paracelsus 挑战提出以后,有三个实验小组应对这一挑战分别设计了三个结构转换的实验,这三个蛋白分别命名为 Paracelsin-43、Crotein-G、Janus5,6,7,8。这三个蛋白的命名都很有意思,而且它们的设计都涉及到两种蛋白质基本结构-helices 和 -sheets 的相互转换。1996 年, Jones 报道了第一个应对 Paracelsus 挑战的蛋白-Paracelsin-43,这个名字很简单,顾名思义,就是奔着 Paracelsus 挑战来的。因为这个蛋白由43AA 组成,所以命名为 Paracelsin-43。Paracelsin-43 是利用蛋白质反向折叠
12、的方法通过从头结构设计获得的。进行这个从头设计的时候考虑了两个方面,一个是采用短片段,这是当时固相合成多肽技术水平的限制所决定;另一个是采用两个易于区别的二级结构全helix 和全 -sheet 结构,这样利于随后的检测。首先从蛋白质数据库(protein data bank, PDB)中选择合适的蛋白要求是长度45AA,只有全 和全 结构,这个条件是非常严格的,当时它们就只找到了一对蛋白。第一个蛋白是 BDS-1,它是一种抗高血压和抗病毒的蛋白,43AA,全 sheet 结构,是一个小的含有 3 个二硫键的反向平行 sheet的结构;第二个蛋白质是与葡萄球菌免疫蛋白结合的蛋白 A 的 B 结
13、构域。蛋白A 的 B 结构域共有 58AA,是一个 4 螺旋捆,但是当只有前 43 个氨基酸时,X-射线晶体衍射表明最后一个螺旋被删除,而第三个螺旋也不会形成,所以形成了只有两个螺旋的结构。然后以 BDS-1 为模板,以蛋白 A 的 43AA 片段的结构为目标。仅通过算法设计了一段具有 43 个氨基酸残基的序列,这段序列与 BDS-1 有 53.5的相同,与目标蛋白质有 16.3的相同。算法表明原蛋白有 26 sheet, 没有 -helix;而设计蛋白中 58 -helix,没有 sheet 。序列设计后通过固相合成,HPLC 纯化,质谱检测。pH6.5 时,Paracelsin-43 没有
14、完全的二级结构,只有2 的 -helix,pH4.5 时有 11的 -helix。加乙二醇,降温,从 50至70,-helix 从 2升到 15;用水 /甲醇作溶剂更好,-helix 50有 32,42有 54,但都有 35sheet 结构。结构检测表明 Paracelsin-43 并没有完成 Paracelsus 挑战的设计目标。本设计失败的主要原因是第二遗传密码的简并性造成的-当两个蛋白氨基酸序列具有超过 30同源性的时候,一般就会具有相似的三维结构。而具有相似三维结构的氨基酸序列长度不同则对同源性的要求也不同。长片段对同源性的要求低,短片段对同源性的要求高。当氨基酸长度80AA,要求同源
15、性26 ,而氨基酸长度是 43AA 时,则至少要求具有 35的同源性。本设计中要求具有 53同源性而具有不同的结构在氨基酸长度较短时是比较困难的。使用具有更长氨基酸片段的蛋白成功的可能性更大。长片段氨基酸就不再适合用固相合成的方法,用分子生物学的方法更适宜。Crotein-G 是 Yuan 与 1998 年报道的针对 Paracelsus 挑战的蛋白质。因为分别直接采用了 434Cro 蛋白的序列和 protein-G 的序列,就像一个二者的杂合体,所以命名为 Crotein-G。其中 434Cro 蛋白原有 71AA 组成,但只有具有前 65AA 的多肽的晶体结构被测定,表现为 4 个 -h
16、elix 的结构。而 protein-G 则含有 56AA,表现为通过一个 -helix 连接的两个反向平行的 sheet。因为 Crotein-G 是以 protein-G 为目标,所以设计时也确定为 56AA。设计原则是首先选择所有 434Cro 蛋白与 protein-G 具有不间断的同源性中具有最多 AA 的比对,其中二者具有相同氨基酸最多可为 7 个。然后这 7 个氨基酸作为 Crotein-G 的首先被确定的残基。还要在模板-Cro 蛋白剩余的 49 个残基中改变 28 个。第二类 Crotein-G 的残基是通过氨基酸残基的极性来确定的,要求残基的极性与 protein-G 相同
17、而与 434Cro 蛋白不同。需要改变的残基共有 11 个,分别是E3Y,K6I,K7L,R9G,K26A,I30F,E34A,K39V,F43W ,N52F 和D54V。第三类残基要求适应 protein-G 的疏水内核,有 8 个氨基酸残基需要改变,分别是 M14G,L19E,I33Y ,P41G,I47D,A50K,L51T 和 C53T。现已改变了 19(11 8 )个氨基酸残基,还需改变 9(2819)个残基。最后检查剩余的 30(49 19)个残基对稳定性和折叠的贡献,重点选取可能对protein-G 和 434Cro 蛋白稳定能量差异最大的位置。通过考虑主链的扭角、侧链间的相互作
18、用、侧链和主链间的相互作用以及二级结构的可能性确定了最后的 9 个残基。通过合成 6 个 69bp 的核苷酸片段,然后通过激酶激活,退火、连接得到设计的 207bp 的核苷酸序列。进而通过基因克隆、原核表达、蛋白纯化等步骤获得目的蛋白 Crotein-G。在制备 Crotein-G 的基础上,他们进而合成了 ZCrotein-G。ZCrotein-G 是通过定点突变的方法在 Crotein-G 上引入潜在的金属结合位点(H16,H18 ,H30和 C33)。这几个位点都与 434Cro 蛋白不同,所以改变的氨基酸总数不变,仍然符合 Paracelsus 挑战的要求。圆二色光谱检测表明,在低浓度
19、(2.6m)并且含有 20TFE 时 ZCrotein-G的结构与 434Cro 蛋白不同而与 protein-G 的突变体 Z1 相似;但是高浓度下(10 40m)或者 TFE 不存在时,蛋白质发生聚集沉淀而使有序结构减少。蛋白质聚集的直接原因是因为蛋白没有形成一个很好的内核。而内核的形成是蛋白质正确折叠的关键因素。Crotein-G 的设计并没有采用从头设计的方法,而是在氨基酸极性、疏水内核的形成,残基对稳定性和折叠的贡献等方面综合考虑 434Cro 和 protein-G 的不同,直接采用二者之一的氨基酸序列。通过分子生物学的方法,通过基因克隆、原核表达、蛋白纯化等步骤获得目的蛋白。设计
20、的主要缺陷是只能从二者的氨基酸中选取,造成目标蛋白没有形成一个很好的疏水内核。综合来说,Crotein-G 并没有形成具有稳定结构的蛋白质,离 Paracelsus 挑战的要求仍然相去甚远。真正符合 Paracelsus 挑战的是第三个名为 Janus 的蛋白的设计。Janus(杰纳斯)是罗马神话中的天门神,早晨打开天门,让阳光普照人间,晚上又把天门关上,使黑暗降临大地。他的头部前后各有一副面孔,同时看着两个不同方向,一副看着过去,一副看着未来,因此也称两面神,或被尊称为时间之神。而Janus 蛋白命名的含义包括两个方面,第一个指它的两面性,即 -helix 和sheet 两种不同结构之间的转
21、换;另一个意思则是打开了一扇门,暗示开创了一个新的局面。Janus 是以 protein-G(56AA,表现为通过一个 -helix 连接的两个反向平行的 sheet)为模板,准备转换为 4 螺旋捆的 Rop 蛋白。这是因为在当时对-helix 形成机制的研究远远领先于对 sheet 的形成机制的研究。Janus 设计理念是综合考虑残基的短程和长程相互作用,protein-G 中倾向于形成 -helix 的残基不变而倾向于形成 sheet 的残基则替换成倾向于形成-helix 的残基。形成 -helix 捆的 a,d 位的残基设计为疏水残基,而在 Rop蛋白中形成盐桥的 Arg16 和 Asp
22、46 也引入到 Janus 中。为了形成 Rop 蛋白中相似的电荷分布,在 1/1引入中性和正电荷而在 2/2引入负电荷。最后在49 位引入 Tyr 来与 Rop 蛋白相同并利于随后折叠的检测。通过核苷酸片段合成,原核表达并纯化蛋白。圆二色光谱检测表明 Janus 的二级结构和以 sheet 为主的 protein-G 差别明显而与以 -helix 为主的 Rop 蛋白非常相似。核磁共振也表明 Janus 和 Rop蛋白具有相似的结构。通过改变不超过 50%的氨基酸残基使蛋白从以sheet 为主改变为以 -helix 为主,Janus 完全满足了 Paracelsus 挑战的要求。应对 Par
23、acelsus 挑战的要求,研究者们用不同的思路(从 -helix 到sheet 和从 sheet 到 -helix)、不同的设计方法(从头设计的方法和基于已知蛋白结构的方法),不同的实验方法(固相合成和基因重组),不同的侧重点(疏水内核,氨基酸极性,短程和长程相互作用,折叠的稳定性)设计并获得了不同程度满足 Paracelsus 挑战要求的蛋白质。这些经验和教训都对蛋白质分子设计的发展起到了很大的促进作用9。蛋白质分子设计是一个难度极大却又引人入胜的研究领域。通过蛋白质分子设计既可能得到自然界不存在的具有全新结构和功能的蛋白质,又是检验蛋白质折叠理论和研究蛋白质折叠规律的重要手段。但由于我们对蛋白质折叠规律即蛋白质设计的理论基础的认识还不够,蛋白质分子设计还处于探索阶段。目前还没有通过蛋白质分子设计得到既具有所希望的结构和功能又具有重要应用价值的全新蛋白质。但蛋白质分子设计在算法、组合化学方法及基于蛋白质的高分子材料等方面已取得显著的进展。随着对蛋白质折叠规律认识的加强和设计经验的积累,蛋白质分子设计将会有一个新的突破,从而更好的为人类服务。