1、Cheminformatic Tools for Medicinal Chemists,Less experiments,better results, is that true?,Cheminformatics,化学信息学是近年来出现的将化学和信息科学融合成为最新研究前沿的交叉学科, 涵盖了理论计算、新算法发展、新知识和新化学实体的发现以及化学虚拟现实等领域。可以广义的被定义为利用化学信息揭示化学性质与结构之间的关系,从药物发现的角度,化学信息学的一些准则可以应用在早期的研究步骤(例如构效关系的研究与毒性的预测),Cheminformatics Tools,化学信息学工具通过数据挖掘和分析,
2、以及结构表征和优化,帮助研究者在现代研究方法中(如组合化学与HTS)提取大量有用信息,促进药物研发进程。,Cheminformatic Journals,The Journal of Cheminformatics The Journal of Computer-Aided Molecular Design Molecular Bioinformatics QSAR and Combinatorial Science The Journal of Chemical Information and Modeling已有15000篇化学信息学的研究论文在最近五年发表,雅培科学家常用的化学信息学工具
3、模块,Pipeline Pilot 理化性质与配体效率 Property Calculation page 理化性质 Leadhopper2D/3D 相似检索 RocsOverlay 3D 分子叠合DrugGuru 寻找生物电子等排 RcosDock 基于分子结构的3D对 PyMol 作图使分子可视化,Accelrys,Accelrys是一流的药物研发解决方案提供者,为药物化学家提供强大的研究工具。涵盖了基因组学、蛋白质组学研究到药物靶点确认和结构解析,基于靶点的先导化合物发现,基于活性化合物结构的先导化合物优化,先导物ADME/T性质预测等领域。能够帮助科学家显著提高的效率。,Pipelin
4、e Pilot,Accelrys的Pipeline Pilot是业界领先的基于流程化(Protocals)的计算模拟及信息管理平台,已在国际上众多学术机构及超过300家的企业得到了广泛应用。它集成了大量的功能组件,能够实现工作流程的构建和共享,完成复杂应用环境下的高效率资源整合,用于计算分子的大部分理化性质与配体效率。Pipeline Pilot不仅能让研究人员用更方便和更有效的方式来整合并应用那些复杂难学的计算模拟和信息管理工具,而且能让实验科学家用更简洁和更友好的方式了解、掌握并应用理论与模拟计算的最新成果 。,Property Calculation page,这是一类网络工具,用于计算
5、理化性质,并有着子结构检索与类比功能。 Data for General, Organic, and Physical Chemistry / i.F ii.Colby College Data Search for Species by Chemical Formula / NIST Dielectric Constants / ASI Instruments Inc. Chemical and Physical Properties Webliography / LSU Properties of 200 linear macromolecules and small molecules
6、/ ATHAS,LeadHopper,combines 2D (ECFP6) and 3D(ROCS) methods for compound similarity searches。 基于形状相似性的虚拟筛选工具,RocsOverlay&RocsDock,ROCS is a powerful virtual screening tool which can rapidly identify potentially active compounds with a similar shape to a known lead compound.(ROCS是一款基于结构相似性的虚拟筛选工具) RO
7、CS is a fast shape comparison application,It uses a Gaussian function to represent the molecular volume(利用高斯函数计算呈现分子体积)ROCS alignments have a number of applications: 3D QSAR, SAR analysis, understanding of scaffold diversity.( ROCS 有许多应用模块,包括3D-QSAR, SAR analysis,添加分子柔性)provides 3D overlays of multi
8、ple input query molecules(提供3D分子比对和对接),Rocs运行图例,PyMol,Pymol 是一个开源的结构显示和分析程序. 使分子可视化,它是用python编写的所以叫Python molecular 。Pymol用处最多的是做图。,认识论的四个界限,随后,作者将化学信息学中重要的要素和概念模仿军队条例与法律界范文分为四个部分来阐述。这篇文献全面剖析了我们在化学信息学中已知的还有未知的要素,分别是以下四类:The Known Knowns,the Known Unknowns,the Unknown Knowns, and the Unknown Unknowns
9、.,“There are known knowns; there are things we know that we know. There are known unknowns; that is to say, there are things that we now know we dont know. But there are also unknown unknowns; there are things we do not know we dont know.” Donald Rumsfeld,known knowns,known knowns:molecular weight,
10、ligand binding efficiency, and substructure searching,1 分子量与原子数目,Molecular Weight and Atom Counts.:the link between MW and oral Absorption “Lipinskis landmark publication correlating increased MW and atom counts with increased risk of clinical failure,primarily due to low oral absorption.” “hard cei
11、ling” of 500 Da Exception:protein-protein interactions and peptidergic,natural products 分子量大的化合物,功能基团多,增加了与受体结合的机会和强度,但是 分子量大不利于药物的透膜与吸收(当化合物的分子量接近磷脂分子量时,穿越细胞膜的磷脂双脂层在能量上市不利的,以至降低了吸收性和过模型) 分子量大的化合物可能含有易被代谢的基团和毒性结构,不适宜作为先导物,1 分子量与原子数目,1 分子量与原子数目,有的时候人们在筛选中并没有注重MW小于500和“rule of 5”,因为上市很多药物并不符合 ,但是Astra
12、Zeneca的科学家通过对4家主要制药公司的专利药物的理化性质和研究中的进展比较中得出结论专利中很大一部分没有遵循“MW Filter”和 “rule of 5”的“drug-like分子”在临床研究中有极大的风险. Leeson, P.D.; Springthorpe, B. The influence of drug-like concepts on decision-making in medicinal chemistry. Nat. Rev. Drug Discovery 2007, 6 (11), 881890;,1 分子量与原子数目,同样的一组化合物经HTS后(活性构象,结构类比
13、,通道选择,限制性HT-ADME),约90%的化合物能够有潜在活性,并按照从高到低排序。如果用500D规则,也许其中只有50%的化合物能够符合,但是容易得到“bonafide leads”(友善的先导化合物),2 Ligand Efficiency,配体效率是将化合物的活性在分子大小的尺度上加以表征,是优化过程中监测化合物的活性、物化性质和成药性程度的一个指标。the binding energy G 由以下几部分决定: G -RT.lnKd = 1.37 pKd G除以非氢原子数,得出每个原子的自由能贡献即配体效率,用下式表示 LE = G/N非氢原子 配体效率是衡量苗头物或先导物以及优化的
14、化合物的质量的参数,表征化合物的活性效率。 LE指配体(苗头、先导物、优化物等)中每个原子对结合能的贡献,在选取先导物和优化过程中是个有用的指标。,2 Ligand Efficiency,这个参数常常和HTS与基于片段的先导化合物设计结合,是打分的重要组成部分。作者之所以把LE放在Known Known的类别里是由于理化数据是可以测得的,尽管理化数据与生物活性的关联并不清楚,并不妨碍人们应用这个Known Knows准则。,3 Substructure Searching (子结构检索),子结构检索可以帮助得到一系列含有相同骨架的结构,将共有结构提取出来,进行子结构检索,来获得更多的相似结构。
15、这些结构以及它们的活性数据对于建立QSAR模型十分有用。子结构检索致力于解决两方面问题之一:其一,还有哪些分子含有相同子结构(从已知SAR找出有潜在活性的分子) 其二,哪些分子不含有任何子结构(排除含有“问题子结构”的分子)。 由于是子结构检索, 查到的 机会多,结果准确性差 因此还可以对子结构进一步的定义提高查准率。,3 substructure search,在虚拟高通量筛选中,以以上化合物蓝色部分为子结构,在雅培公司的数据库进行子结构检索中得到209个检索结果,用Daylight fingerprints 检索得到94,而用ECFP6 fingerprints得到27。且检索结果的分子结
16、构也少有交集。,Known Unknowns,情况或者结果已知是可能的,但是是否能实现还是个未知数。从化学信息学的角度,就是有些内容我们知道如何计算,但是这些内容的效用尚不可知,迄今为止,这些Known Unknowns内容是化学信息学各方法中最多的组成部分。,1 Polar Surface Area,分子极性表面积(PSA)指分子中极性原子表面的总和,通过计算极性原子O, N, OH和NH的范德华 表面积得到的。是一个描述与分子被动传输通过膜相关的概念,它可以预测人体肠吸收、Caco-2单层渗透性和血-脑屏障渗透。 PSA越大,极性越大,难于过膜;对上千个口服非CNS药物的PSA最高阈120
17、2,超过该值难以吸收; 透血脑屏障,PSA60-702,2 TPSA,为了简化极性表面的计算,人们提出了拓扑极性表面积(TPSA)的概念(J Med Chem. 2000 Oct 5, 43(20):3714-7)。它的基本假设是分子中每种相同原子或基团类型对极性表面积的贡献都是相似的,整个分子的TPSA就是所有原子或基团贡献的加和。TPSA的基本思想和脂水分配系数以及水溶性计算中的加和法基本相似。 原理: TPSA是基于规则的专家系统,计算的参数是基于已有极性片段数据库的。这些片段的贡献是通过对来自于世界药品库34810个药物单个构象3D-PAS的最小二乘法拟合来确定的。,3 Chemica
18、l Similarity,3 Chemical Similarity,Tanimoto coefficient (谷本系数)一种度量两个集合之间的相似程度的方法,相似系数介于0到1之间。,3D Compound Overlays,传统的二维相似性算法的缺陷在于,许多化合物虽然有着不同的原子和价键的topo结构,但是却有相似的整体形状和电荷分布。ROCS,和SURFLEX等3D相似度运算程序着重于发掘分子形状的相似性。 Surflex-Dock由加州大学旧金山分校Ajay N. Jain教授开发,这种对接方法精确、快速。高效、准确的对接和打分,使Surflex-Dock成为虚拟筛选的首选工具。
19、flexs或者rocs都可以多个分子叠合We can calculate a“best” overlay, but we cannot really “know” if we are right.Thankfully, it has been our experience that you do not have to be “right” all of the time, you simply have to be “useful”most of the time.(我们可以计算出“最佳”重叠,但我们并不能确定这是正确的。幸运的是,我们不需要总是“正确”的,我们只希望大部分时候这种计算是“有
20、用的”)。,3D Compound Overlays,3D Compound Overlays核心优势:准确的评分:评分函数来自于已知的结合数据,使用阴性训练数据以减少假阳性结合分数;快速的对接:对接一个分子平均需要17秒,旋转一个键大约需要3秒;易于操作:受体的准备和对接的准备工作都非常简单易行;原型分子引导的分子对接:程序很方便的产生一个代表受体结合部位特征的理想分子(原型分子),然后利用相似性技术将配体对接到活性部位,原型分子可以用程序自动生成,也可以用户定义;环的柔性处理;基于分子相似性方法的Surflex包含Surflex-Sim,能够进行小分子复合物的叠合。,图中所示为流感病毒唾液
21、酸苷酶(1B9V)与某抑制剂(图中紫色棍式模型表示的分子)的复合物结构。使用Surflex-Dock将优化后的该抑制剂对接到活性部位(图中黄色球棍式模型表示的分子),与晶体结构比较,其rms偏差仅0.645埃。,4 Bioisosteres,具有相似的物理及化学性质的基团或取代基,会产生大致相似、相关或相反的生物活性。运用生物电子等排体的概念不但可设计出具有与原药物相同药理作用的新药,而且还可生产该药物的拮抗药,这是因为化学结构高度近似的药物常能与同一受体或酶结合引起相似的效应(拟似药),或相反地起抑制的作用(拮抗药) 经典的如:芳杂环取代(质子泵抑制剂系列)尿嘧啶与氟尿嘧啶叶酸与甲氨蝶呤,4
22、 Bioisosteres,生物电子等排体3D-overlays的透视图,噻吩环作为bioisosteres取代苯环可以实现很好的叠合,Drug Guru,雅培公司广泛应用的Drug Guru 软件已经较好的融入了新药研究中约250条经过实证的“生物电子等排体”准则。 (Vardenafil)是目前世界上最新勃起功能障碍症(ED)治疗领域的最新药物,是德国拜耳与葛兰素史克公司经过多年研制开发的,通过抑制5型磷酸二脂酶(PDE-5)起作用。Drug Guru: A computer software program for drug design using medicinal chemistr
23、y rules ,Bioorganic & Medicinal Chemistry 14 (2006) 70117022,Drug Guru,Drug Guru,Binding Pose Prediction.,基本流程:(1)收集文献上发表的小分子化合物结构的信息,组成二维(2D)小分子数据库。对每个小分子进行原子类型和化学键归属,将2D结构转变成三维(3D)结构并进行结构优化,组成3D小分子数据库;(2)对生物大分子(蛋白质)进行质子化和原子电荷归属,并进行结构优化,确定小分子结合位点,构建计算网络;(3)将3D小分子数据库中的每个化合物对接到生物大分子的活性位点,并进行打分计算小分子-生
24、物大分子的结合强度(结合自由能);(4)根据打分的结果挑选化合物(打分比较高的分子),进行类药性评价,选择化合物进行生物实验测试。类药性评价的计算量远小于分子对接,如果需要降低计算成本,也可将类药性评价在分子对接前进行。,Unknown Knowns,不知道的或者“拒绝承认知道”的已知准则,1 Plasma Protein Binding,化合物与血浆蛋白的结合可以显著的影响体内活性,血浆蛋白是药物分子分布转运的重要载体。过高的血浆结合率会影响药物分子对靶标的作用,过低则不能充分的转运到靶标。药物化学家的一个重要作用就是在其中寻求平衡。通常,提高脂溶性的和酸性基团通常可以增加与蛋白的结合,而降
25、低logP减少氨基可以减少与血浆蛋白结合的水平。标准的方法是应用生物电子等排工具DrugGuru进行计算。,2 In-Vivo ADME,适宜的脂水分布系数是口服吸收的前提条件,穿透细胞膜的必要条件(水性环境转运:体液、血液、细胞浆液),亲脂性基团或片断参与同靶标的结合,整体药物的亲脂性可影响透膜(穿透细胞膜磷脂层) ,与血浆蛋白结合,组织分布(脂肪组织蓄积),穿越血脑屏障的能力,代谢稳定性; 已有的很多软件可以模拟配体与靶标的结合,但是很少有软件可以预测配体的药代动力学性质ADME。已有很多的发表论文仅将注意力集中在优化和提高候选分子与受体的结合活性。但是药物分子能够得到好的生物利用度取决于
26、许多因素(如在消化道的溶出,上表皮的吸收,转运,代谢,肾清除等),因此优化候选分子的ADME性质往往得到亲水性高的分子,而不是透膜吸收好的脂溶性分子。不断有许多数据库提供的一些新的实验测定方法和预测模型。但是由于受体(biological end points)的复杂性,准确可靠的预测模型和研究方法有待进一步的发展提高。,3 脂水分布系数改变ADME,3 脂水分布系数改变ADME,VolSurf,VolSurf可以根据内建计算模型来预测化合物ADME性质,可以计算DNA片段,肽及小分子化合物。 VolSurf内置的ADME模型是根据已发表的试验资料开发的,包括Caco-2细胞吸收 ,人体CYP
27、3A4代谢稳定性,hERG抑制 ,血浆蛋白结合率,热力学溶解度,水/DMSO溶解度,血脑屏障穿透等模型。VolSurf还可以采用与QSAR相似的统计学方法建立ADME或者QSAR模型,VorSurf图例,如上左图所示,利用VorSurf对一系列化合物肠吸收率的预测值与实验值的相关关系图,VorSurf的化学性质是以三维分子力场来描述的。该例所示为地西泮的疏水表面(右下蓝色显示)和亲水表面(左上角红色显示) 右图所示为利用VorSurf模块确定的某抗炎药物的亲水表面积。,Unknown Unknows,生命太复杂了, 不光是计算机没达到我们想象中的完美的计算能力,在没有完全揭开生命规律之前,再先
28、进的工具也可能会因那一个没有揭开的秘密而做错误的事情来。 例如QSAR(复杂其实也简单),但是能够广泛适用的QSAR模型尚未建立,QSAR的可信度和适用域也尚未明确,研究中结果的好与坏都应该最大限度的真实表现出来,而不能根据作者倾向人为修改。,作者小结,“many cheminformatic approaches simplyoverpromise and under-deliver and, therefore, do not improve productivity (and may even reduce it)。”近些年来,化学信息学软件工具在数量上显著增长,功能上也有很大进步。但是
29、有些化学信息学方法有些“言过其实”不仅没有提高反而有可能会降低新药研发的产出率。从“研究趋势” (文化层面)一些已经被广泛证实的经典的类药准则在如火如荼的化学信息学工具的应用下被许多药物化学家忽略了。3 最后,必须认识到,化学信息学是一个迅速发展的领域,需要大量的信息,以构建可靠的计算模型。爆炸式增长的化学和生物学数据库必将促进化学信息学在全球范围内更加广泛的应用。在雅培公司,各种化学信息学的工具(包括公司自己开发的)在化学信息学和模建部门被广泛应用,我们希望这些应用可以在未来对新药研发的产出率产生可以量化的积极影响。,在靶标经过初步验证确定之后,科学家希望先通过潜在的药物分子与靶标的相互作用
30、来筛选确定先导化合物。然后围绕着先导化合物进行结构优化,使药物分子的生物活性及对靶标的选择性都达到最大值。但在生物体内,所设计的药物分子不一定能到达预定的靶点吗,也不一定仅和一个靶点作用 。 计算机进行的虚拟筛选高度依赖靶标蛋白体的晶体结构,晶体结构与体内溶液结构不完全等价。 在做计算机模拟时,有许多假定与赋值,人为因素占有相当大的比重。 计算机模拟所追求的是“活性最大化”。事实上,药物分子的活性是否最大并不是最主要的,这是因为活性增大的同时常常伴有毒性增大。重要的是药物分子的治疗指数。对于一个没有毒性的分子,活性低一些是可以接受的。,Discussion,Discussion,从QSAR、分
31、子对接,到ADMET预测、类药型分析,从靶点确认、蛋白质模拟、到小分子模拟、HTS的数据处理,CADD还需要需要理论、方法和技术的提高 工具永远是工具,每个方法和工具都有优点和不足的一面。使用工具的人才是最重要的。药物研发是一个大机器,所有使用的工具是这个机器里的零件,零件有大有小,有重要的和次要之分。 合格的CADD研究者,应该对所使用的方法有明确的了解,要能够根据体系选择适当的方法和参数,知道应用什么方法与参数能够获得合理的结果,而不是通过调整方法和参数去获得自己希望的结果。,Discussion,对有机小分子的大规模筛查,对靶酶天然底物类似物的改造等更理性的方法已经成为发现先导化合物的主
32、要方式 。 分子结构的分类法、从头设计、基于分子对接或者基于药效团方法的虚拟筛选,可以应用于发现先导化合物的环节;分子动力学方法可以分析小分子与生物分子的相互作用模式为先导化合物优化提供信息;QSAR可以提供先导化合物优化的方案;以化学信息学为基础的ADME/Tox预测可以计算分子的药代动力学性质和毒性。 虚拟筛选的阳性率(5%30%)远远高于高通量实验筛选(0.01%0.1%),大部分SBVS是根据蛋白质晶体结构进行的,也有少量的是根据同源蛋白模建的结构筛选出活性化合物。只要虚拟筛选所命中的分子,有生物活性的概率远高于随机选取的分子,理论计算就是有意义的。 徐光宪院士指出:“21世纪的化学信息学将建立各种化学信息库,然后分析信息的内涵,总结出规律,最大限度地挖掘、开发和应用信息宝库,使它们作为实验归纳法和理论演绎法的桥梁,推动化学和化工学科的发展,为国民经济服务。”,