1、12.1 结构与物性数据的采掘12.1.1 QSAR中常用的结构参数及理论计算12.1.2 Internet上的结构化学信息资源 12.2 2D-QSAR12.2.1 多元线性回归 12.2.2 模式识别方法12.2.3 人工神经网络12.2.4 支持向量机简介 12.3 3D-QSAR:CoMFA和CoMSIA 12.4 3D以上的QSAR简介,结构与物性的关系是结构化学的重要内容, 也是化学中一个带有根本性的基础理论问题。获取所需的结构信息,并与物性数据关联,得到定量构效关系(QSAR)或定量构性关系(QSPR),进一步指导化学实践,这个问题涉及计算化学、化学信息学、化学计量学等多种学科。
2、认识到化合物的性质与其结构相关,并可借数学来描述,是19世纪后期的事。20世纪40年代,Hammett提出线性自由能关系, 开QSAR研究之先河。但真正推动这种研究大规模开展的是Hansch等人在20世纪60年代对药物分子QSAR的创造性研究,其主要目的是减少药物合成与试验的盲目性,提高研发效率,降低研发费用。,计算机辅助药物设计(CADD)自然成为十分活跃的研究领域。CADD依据的基本原理是受体-配体关系。按照是否已知和利用受体的三维结构数据,CADD方法分为两类:1. 不依赖于受体三维结构的方法。如2D的Hanch方程、3D的CoMFA和CoMSIA等。2. 依赖受体三维结构的方法:在已知
3、受体三维结构的情况下,有针对性地进行分子设计,代表性方法有Ludi、Leapfrog、GRID、DOCK等。,构效关系(或构性关系)研究是用某些数学方法将结构参数与活性(或物性)数据关联起来:,结构参数,物性,QSAR/QSPR,合成,应用,物性,结构,这种关系可以看做是下列循环中的一部分:,对一个具体问题,QSAR研究选择哪些结构参数,往往是成败的关键。结构参数也称为变量、特征或描述符。常用的有以下几类:1. 拓扑描述符:反映分子中原子及化学键的类型、数目及其在二维空间的连接关系。常用的拓扑指数有分子连接性指数、Randic分枝指数、Winer指数等,可用一些程序,例如TOPIX来计算。,2
4、. 几何描述符: 反映分子三维结构的几何特征,例如分子体积、分子表面积、分子立体参数等。许多计算化学程序可给出这类参数,例如,在HyperChem中,用菜单命令Compute QSAR Properties打开下列对话框,选择要计算的参数即可。,3. 电子描述符: 如电负性、HOMO能级、LUMO能级、超离域度、原子电荷密度、原子半径、电荷-半径比、键级,。计算这些参数是量子化学最好的用武之地。,4. 理化描述符:物质的理化特征可用物理化学参数来描述,如化合物的疏水参数、熔点、沸点、蒸气压、溶解度等,这些参数多半是实验数据,但有些也可以计算出来。,用HyperChem计算Aspirin分子的疏
5、水参数logP,5. 谱图描述符:例如,化合物某种基团中13C的NMR化学位移, 质谱上的质荷比me, 振动光谱或电子光谱上的吸收峰波数,等等。6. 化学组成描述符:例如,某类无机物或有机物的化学组成、某些元素含量的比值等。,1. 通用资源搜索引擎通用资源搜索引擎很多,多数已为人们熟知。例如百度 http:/Google http:/.hkYahoo http:/www. Yahoo. comsciencechemistrylnfoSeek http:/www. infoseek. comAltaVista http:/www. altavista.digital. comExcite htt
6、p:/www. excite. comLycos http:/www. lycos. com,2. 化学资源导航系统这种导航系统非常多,仅举数例:,中国科学院化工冶金研究所计算化学开放实验室 化学信息资源导航系统ChIN(新版本) http:/ 中国科学院上海有机化学研究所 http:/202.127.145.116/hxwzdh.htm,美国加州大学洛杉矶分校(UCLA)化学和生物化学系 http:/www.chem.ucla.edu/chempointers.html 从该网站提供的链接, 可以很快找到大量的化学信息.,在化学信息数据库中, 化学结构数据库占有很大的比例。如果熟悉这些网站或
7、数据库,不必使用搜索引擎就可直接链接。本节摘要介绍,以供参考。,化学结构数据库,美国国家标准与技术研究院(NIST)开发: Chemistry WebBook http:/webbook.nist.gov/chemistry/,印第安纳大学分子结构中心http:/www.iumsc.indiana.edu/晶体结构和分子图来源,中国科学院计算机化学开放实验室http:/202.127.145.116/molinformatics.htm,曼彻斯特大学-结构化学部http:/spec.ch.man.ac.uk/Structural_Chemistry.html,Ponder实验室WWW服务器ht
8、tp:/dasher.wustl.edu/主要内容为计算化学与分子模型,维也纳大学-理论化学学院http:/www.itc.univie.ac.at/,辛辛那提大学-OBR计算机辅助分子设计中心http:/www.obr-camd.che.uc.edu,乔治亚大学-计算量子化学中心http:/zopyros.ccqc.uga.edu/,国际晶体学联合会http:/www.iucr.ac.uk/,剑桥晶体结构数据中心 http:/www.ccdc.cam.ac.uk,布鲁克海文蛋白质数据库 http:/www.rcsb.org/pdb/蛋白质、DNA、RNA、病毒、碳水化合物等生物大分子的3D结
9、构数据库,含原子坐标、一级序列与二级结构信息、晶体结构因子和2D NMR数据.,美国矿物学家晶体结构数据库http:/www.geo.arizona.edu/xtal-cgi/test,矿物结构数据库 http:/database.iem.ac.ru/mincryst/search.php3 矿物的晶体结构参数和衍射资料,可由化学式首字母、晶体结构等检索.,矿物数据库 http:/ http:/www.zeolites.ethz.ch/zeolites/FMPro?-db=Atlas_main.fp5&-lay=web%20layout&-format=DisordStructures.htm
10、&-view,晶体学免费数据库资源 http:/www.crystalstar.org/resourcelink/Resources.htm,X射线粉晶衍射数据索引 http:/www.crystalstar.org/resourcelink/xrayindex.htm,粉末法结构测定实例库 http:/sdpd.univ-lemans.fr/iniref.html,X射线应用数据库(DABAX) http:/www.crystalstar.org/resourcelink/dabax/dabax.htm,SDBS有机化合物谱图库http:/www.aist.go.jp/RIODB/SDBS/
11、menu-e.html,红外光谱网站http:/ http:/www.unige.ch/epr,美国国家标准与技术研究院(NIST)物理实验室 http:/physics.nist.gov/cuu/Constants/index.html物理化学参数,Cambridgesoft公司网络服务 CS Finder http:/ http:/www.C,分子研究协会http:/www.molres.org/主要内容为计算机辅助药物设计与毒性鉴定、计算,实验生物化学与医药学。,动态浏览网上分子结构,当一化学数据库文件中有用多媒体网际邮件扩展(MIME)协议表示的分子结构图形时,为了显示它就必须安装化学
12、 MIME显示程序。,(1)WebLab Viewer:由MSI公司开发的3D分子模拟软件。MSI公司改名为Accelrys后,WebLab Viewer也更名为Accelrys Viewer。有普通版、Lite板和Pro版。Pro版本即为ViewerPro,功能强大,可读取Tripos、Cerius2、Catalyst、InsightII、MDL等软件的不同格式文件并进行转换,以线状图、球棍图、CPK、带状图等多种风格显示无机、有机、生物大分子及晶体结构,用鼠标进行三维操作:,(2)Rasmol:可以从 Internet上获得(ftp:/ftp. dcs. ed.ac. ukpubrasmo
13、l)。Rasmol能够处理多种格式的分子数据文件,以球状、棒状、球棒等方式显示并进行多种处理,如旋转、缩放、识别原子或基团等。,(3)Chime:下载网址为http:/ 常用的有回归分析、模式识别、人工神经网络(ANN)、支持向量机(SVM)等。,物性与各种结构参数的关系,广义上是因变量与自变量的关系。若这种关系相当确定,就称为函数关系;若关系不很确定但又有某种联系,则称为统计相关,简称相关。实际上,函数与相关并没有绝对的界限。回归分析是处理变量的相关关系的一种数理统计方法。QSAR研究常用的是多元线性回归(MLR),它用数学方法找出因变量Y与一组自变量Xi之间的线性回归方程。MLR给出的是定
14、量构效关系,物理意义明确。使用这种方法的前提是:各个自变量应尽可能相互独立而不相关,样本数目至少是描述符数目的3倍,最好达10倍以上。,12.2.1 多元线性回归,在化学中, MLR最成功、最广泛的应用是Hansch等人基于下列假设提出的方程: 取代基对药物分子活性lg(1/C)的影响,主要与取代基疏水效应参数、电子效应参数和立体效应参数Es有关,这些效应彼此独立且可累加:C是根据ED50、LD50、I50等定义的活性指标。有些化合物的活性与呈非线性关系:,氟哌酸是喹诺酮类抗菌药的一类,商品名为诺氟沙星,由古贺弘利用Hansch方程进行了一系列QSAR研究而设计。活性的理论计算值为6.38,
15、实验值为6.63。这是Hansch方法指导药物设计的成功范例。,1. 模式识别的概念QSAR研究常用的另一大类方法是化学模式识别(CPR), 也称多元统计分析。按是否需要训练集可分为监督模式识别与无监督模式识别两大类。具体算法很多,如主成分分析(PCA)、非线性映射(NLM)、聚类分析(CA)、簇类独立软模式(SIMCA)等。人工神经网络(ANN)从20世纪80年代以来成为化学模式识别的重要方法,但它不是基于多元统计分析, 而是具有自适应能力,有人称之为自适应化学模式识别。,12.2.2 模式识别方法,2. 样本、描述符和模式空间在模式识别中,将每一种化合物称为一个样本,m个样本构成的集合称为
16、样本集;每一种结构参数x称为一种特征或描述符。m个样本的n个描述符构成原始数据矩阵X:,n个描述符张成一个n维模式空间,每一个样本相当于该空间中一个点或矢量。描述符的选择是关键而困难的一步。各描述符之间应尽量互不相关,m/n应大于3,最好大于10。,3. 数据预处理原始数据通常要经过预处理才用于模式识别。常用的预处理方法:(1) 正规化变换,(2) 标准化变换,(3) 加权加权是根据经验给较重要的描述符赋予较大的权重。这仅对监督模式识别才可行。(4) 函数变换描述符的变化范围太大时,通过取对数、开方等函数变换可缩小范围。对于光谱图,经Fourier变换后用于分类, 也许会得到更好的结果。,(5
17、) 描述符组合将原始描述符进行某种组合以产生新的描述符。例如, 将LUMO与HOMO组合成二者之差时, 通常是考虑到电子激发能对分类的影响。近年来,利用遗传算法(GA)对描述符进行重组,是一种比较有效的手段。,4. 活性指标活性指标和描述符是QSAR的两个不可分割的组成部分。生物活性通常定义为产生预定生物效应所需的剂量或浓度C的倒数。常用剂量或浓度有:(1)半数有效剂量ED50(2)半数致死剂量LD50(3)半数有效浓度EC50(4)半数致死浓度LC50,5. 相似性量度模式识别的重要功能之一是分类。研究样本分类属于Q型模式,研究描述符分类属于R型模式,通常对前者用得较多。无论哪种分类,都是依
18、据“物以类聚”即相似者相聚的原理。然而,怎样才算相似?需要从数学上给出某种相似性量度。相似性量度有多种定义,常用的有,(1) 相似矩阵从几何意义看, 每个样本相当于n维空间中一个模式矢量。样本k与l 越相似,其模式矢量在模式空间中的夹角kl越小,夹角余弦越大。所以,夹角余弦可以作为样本相似性的一种指标:,夹角余弦是用原始数据定义的。若改用与样本平均值的差值来定义, 就是相似系数rkl(k=1,2,, m;l=1,2,, m):,(2) 协方差矩阵对于原始数据矩阵X,定义描述符k与l之间的相似程度为协方差ckl(行标处的圆点表示该平均值由列标指定的列上对所有行求出):,所有“描述符对”的协方差,
19、汇集成协方差矩阵C,(3) 相关矩阵如果先将原始数据矩阵X标准化,再求其协方差,就得到标准协方差rkl,其值在(-1)到(+1)之间,也称相关系数;组成的矩阵称为相关矩阵。rkl越近与1,表明描述符k与l 越相似。,(4) 描述符之间的相关分析可以推广到目标值(例如药物分子活性)与描述符之间的相关分析:,i为样本号(i=1,2,, m),ti是第i个样本的目标值,xij是第i个样本的第j个描述符。r=+1表明第i个样本的目标值与该样本第j个描述符正相关,r=-1表明第i个样本的目标值与该样本第j个描述符负相关。绝大多数情况下,r的绝对值介于0和1之间。,(5) 距离相似性还可用模式空间中的“距
20、离”来量度, 这是3D空间距离在高维空间的拓展。这种“距离”的定义很多,如Minkoski距离、Haming距离、Tanimoto距离等。,6. 监督模式识别监督模式识别需要有一训练集。对于两类的情况,训练集中有一些样本属于A类,另一些属于B类。将此信息输入计算机,经训练后, 可对未知样本进行分类。监督模式识别的一般步骤:(1)用一组已知类别的样本作为训练集,对计算机进行训练而建立数学模型;(2)用另一组已知类别的样本作为测试集来检验所得数学模型的识别率。测试集的分类对于研究者是已知的, 却不输入计算机;,(3)若识别率符合要求, 就可以对预测集进行预测。预测集的活性对于研究者和计算机都是未知
21、的,预测结果正确与否只能由实验去检验。有些研究并不专门使用测试集,而是直接对预测集进行预测,再用实验检验预测结果。在这种情况下,测试集和预测集是同义词。,监督模式识别方法之一 :主成分分析 主成分分析是一种简化数据结构、突出主要矛盾的多元统计方法。它利用某些数学方法将原有特征组合成相互正交的新特征-主成分,以突出反映事物的规律性。它既是一种模式识别方法,也是一种数据预处理手段, 用主成份作为新特征进行模式识别,有时分类结果会更好。基本步骤:,(1) 写出原始数据矩阵X:,(2) 对X作标准化变换,构成标准化数据矩阵Z :,(3) 求矩阵Z的协方差矩阵,其矩阵元为,(4) 解矩阵 的本征方程 |
22、 -I| = 0, 求出所有n个本征值及对应的n个本征向量(这与求解HMO久期方程作法相同)。n是描述符的数目。将非零本征值由大到小依次排列, 本征向量也相应排列。(5) 从这n个本征值中选出前r个本征值(r n,只要这r个本征值之和占到n个本征值之和的85%以上即可), 并选出r个对应的本征向量作为列向量, 构成n行r列的系数矩阵D。,(6) 对标准化数据矩阵Z作变换:Pmr =Zmn Dnr,则P 矩阵的每一行对应一个样本(共 m 个),每一列对应一个主成分(共 r 个)。即:对于每一个样本,以一个本征向量作为线性组合系数, 将经过标准化的描述符组合起来,就得到一个主成分, r个本征向量产
23、生 r 个主成分。,主成分是相互正交的一组新描述符, 用它代替原来的描述符, 既能减少描述符的数目, 提高样本-描述符比, 又不会损失必要的信息, 因为每一个主成分都包含着原有描述符的信息。于是, 原始的描述符就可以多取一些, 只要样本-主成分比小于等于3即可。从这个意义上讲, PCA可以作为数据预处理的一种手段。,在二维和三维空间中,人的眼睛是最好的模式识别器, 但在高维空间中却不是这样。因此,必须先压缩空间维数再显示,这种压缩也叫做“空间约化”。样本在高维空间中有一种分布模式,各样本之间有确定的“距离”。把高维空间约化成低维空间后,不可能期望原来的分布模式不畸变,只能期望畸变尽可能小。空间
24、约化有不同的方法:若约化后的空间是原有空间坐标的非线性组合,称约化过程为“映射”;若约化后的空间是原有空间坐标的线性组合,则称约化过程为“投影”或线性映射。,PCA也具有线性映射显示功能。以某两个主成分构成二维坐标平面, 可将所有样本显示在该平面上进行分类。线性映射实例: 陈念贻等对Keise Optonix公司申请的德国专利系列中的46种稀土硼酸盐绿色荧光粉, 以Tb、Ce含量,原子序与离子半径比, 平均电负性作为特征参数,研究其与荧光粉亮度的关系,得到如下分类图。根据显示的优化方向,可以设计出专利范围以外的新配方,有些已被实验证实。,监督模式识别方法之二 :非线性映射 NLM将高维空间中的
25、点集映射到二维平面进行分类。为使映射引起样本间距离变化尽可能小,定义如下误差函数:dij与dij*分别是n维和二维空间中两点间距离。映射过程力求E达到极小,最终归结为无约束的非线性规划问题去求解, 结果可用二维映射图表示。,7. 无监督模式识别方法 这类方法不需要输入分类信息,相反,它的任务就是根据数据结构自己建立一种分类模式, 特别适用于样本归属不清楚的情况。无监督方法包括最小生成树、聚类分析等。聚类分析的最终结果是产生一个谱系图。 实例:,作者等人用摩尔折射率MR、取代基疏水参数、场诱导参数F的函数,组成两套描述符MR, F2和MR, F,()2(下标为取代位),对荧光素的16种衍生物,根
26、据其抗ECa109(人食管癌细胞)活性大小,进行聚类分析,得到如下两个谱系图,每个谱系图下方的线条图标明相应的活性值。可以看出, 每个图左边一类为较低活性,右边一类为较高活性。,聚 类 分 析 谱 系 图,聚类分析可按两种相反的过程进行:“逐次划分”或“逐次归并”。以下介绍逐次归并过程。(1)计算相似矩阵R, 其矩阵元为:,(2)选取R中最大元素Rjk , 它表明样本j与样本k最相似,可聚为一类, 并从R矩阵中划掉样本j或k对应的行与列, 称为“缩元”。但究竟应划掉j还是k? 经典聚类分析是划掉编号较大或较小者, 这种人为作法并无道理。一种比较合理的作法是用Shannon信息方程计算j与k的信
27、息量, 删去其中信息量较小的样本。(3)依此类推,再从缩减后的矩阵R中选择最大元素, 若对应的样本与已聚类的某样本相似, 就将它归入已有的类中,否则另建一个新类。,(4)如此循环往复, 最终必然能将所有样本聚类, 画出谱系图。(5)如果样本分类未知,就需要用实验检验聚类是否正确;如果样本分类已知,就将谱系图与已知结果对照。若正确率符合要求,说明建模是成功的,可用于未知分类样本的判别; 若不符合要求,需要重新选择描述符再建模。,人工神经网络(ANN) 是模拟人脑结构和功能的一种信息处理系统。从仿生学角度看,真正的ANN是用硬件模拟人脑,但更多的是利用软件模拟,属于仿生结构算法。ANN具有自适应能
28、力,而不是基于多元统计分析,已被广泛应用于许多领域,在化学中也成为QSAR研究的重要方法。ANN可以有监督或无监督,多数采用监督算法。,12.2.3 人工神经网络,人工神经网络模拟人脑结构和功能而工作。大脑由大量神经元构成,每个神经元是一个小的处理单元, 树突接受冲击信号, 通过树突支路传到细胞体, 轴突将冲击信号从细胞体传出去。神经元之间通过突触连接, 形成大脑内部的生理神经元网络。大脑的强大功能主要取决于神经元的相互连接方式而不是单个神经元的作用。人工神经网络也是如此, 许多功能简单的人工神经元按某种方式连接成网络, 就能处理复杂的问题。因此, 人工神经网络这个术语强调的是网络而不是神经元
29、。,1. 人工神经元 人工神经元也称处理单元(PE),具有如下功能:(1) 处理各个输入信号以确定其强度加权;(2) 确定所有输入信号的组合效果(净输入)求和;(3) 将净输入非线性变换为输出信号转换函数(F)。,人工神经元的结构与功能,输入信号表示为输入行矢量XX= ( X0 , X1 , , XN ) 连接到神经元 j 的权表示为加权矢量WjWj =( W0j , W1j , , WNj )Wij的下标i为输入点编号, j为神经元编号。 偏置项j 用Xo= -1表示, 其连接权W0j= j (偏置项的作用是提高判别函数对于所处理的判别问题的稳定性)。 输入的加权和sj可表示为输入行矢量与加
30、权矢量的点积:sj= X .Wj,净输入sj 如果直接作为输出值 Yj , 往往不合理, 例如非常大或是负值。需要通过一个转换函数F, 将 sj 变换为输出值 Yj,F将净输入变换到指定的有限范围内输出. F有许多类型, 其中最重要的是Sigmoid压缩函数:,2人工神经网络的拓扑结构神经元如何连接成网络? ANN有许多类型,各有不同的连接方式。最一般做法是先让一组几个神经元形成一层,同一层各神经元互不连接;上一层每个神经元都连接到下一层所有神经元,每个连接都有加权, 每两层之间的连接构成加权矩阵W。矩阵元Wij的行标i和列标j分别是上、下层的神经元编号。若上一层有n个神经元, 下一层有m个神
31、经元,则,多层网络的一端是接受输入数据的输入层, 另一端是给出最终结果的输出层。介于这二者之间的都叫做隐蔽层。通常所说的神经网络结构, 就是指网络有多少层、每层各有多少个结点。例如,下图是一个(6841)神经网络(不包括三角形代表的偏置项):,6841神经网络,由于输入层没有计算作用, 有人不把它算作一层。从这个意义上看, 该网络可称为三层网络。不过, 为描述清楚起见, 还是把记作(6841)网络。实用的人工神经网络通常是两层或三层网络(不包括输入层)。多层网络的层间转换函数必须是非线性函数,否则计算能力并不比单层网络强。,对QSAR研究, 每一层的结点数应当如何确定?(1) 输入层结点数等于
32、描述符的数目, 与样本数无关;(2) 输出层结点数可有不同选择。例如, 若想把预测集样本分为p类, 应当用一个输出结点、将输出值划分为p段来确定每个样本的类别呢? 还是应当用p个输出结点, 让每个结点产生一个二进制型输出(1或0)来确定每个样本的类别呢? 一般说来, 后一种选择产生的误差小。(3) 隐蔽层结点数的确定是理论上尚未解决的复杂问题,通常用尝试法确定。,3训练算法ANN的特征是可以学习。要让它具有某种功能,必须先进行训练。训练与学习是分别从人和网络两个角度而言。所谓学习,就是权重矩阵随外部激励作自适应变化。训练就是相继加入输入矢量,并按预定规则调节网络权值。在训练过程中,网络的各权值
33、都收敛到一确定值,以便对于每个输入矢量都会产生一个要求的输出矢量。调节权值所遵循的预定规则称为训练算法。ANN通常用监督训练算法,误差反向传播(BP)是应用最广泛的监督训练算法。Qwiknet是一个易用的BP软件:,Qwiknet的界面,4. BP算法 BP的学习包含四个过程:(1)输入信号由输入层出发,经过各隐蔽层,正向传播到输出层,即模式顺传播过程;(2)输出矢量与目标矢量相比较, 误差信号由输出层经过隐蔽层向输入层反向传播, 逐层修正连接权和阈值, 即误差逆传播过程(BP这一名称即由此而来); (3)以上两个过程反复交替进行的网络学习训练过程;(4)网络全局误差趋向极小的学习收敛过程。,
34、在神经网络训练过程中,“过拟合”是一个常见问题,即随着迭代次数的增加,尽管训练集的均方根偏差可能还在下降,但测试集的均方根偏差却开始上升,这是网络模型为拟合个别样本所致。这样得到的网络模型没有实用价值。为避免过拟合,可用测试集来监控训练集的训练过程,一旦测试集均方根偏差开始上升,无论训练集均方根偏差下降与否,均应停止训练。,神经网络本质上是一种处理多变量和多响应的方法, 对非线性问题尤其擅长, 而这类问题在化学中相当多。所以, ANN在化学中得到广泛应用。例如: 多组分分析数据的聚类,QSAR,亲电芳香族取代反应研究,涂料制造的优化,红外、核磁等谱图与结构的相关,分子静电势的非线性投影、由氨基
35、酸序列预测蛋白质二级结构,故障检测与过程控制等。,ANN的应用,支持向量机(SVM)算法,包括支持向量分类(SVC)和支持向量回归(SVR),克服了传统算法的弊病,非常适合于处理非线性问题,在防止过拟合方面明显优于ANN,具有下列优点:(1)从理论上解决了小样本难题。对规模不大的数据集,即使噪音较大也能得到很好的数学模型;(2)采用结构风险最小化原则,成功控制了过拟合;(3)可得到全局最优解;(4)可去掉噪音较大的样本,使预测结果更可靠;(5)引入核函数算法,为解决非线性问题开辟了一种新方法。,12.2.4 支持向量机简介,90年代以来,SVM算法在模式识别、药物设计和QSAR、环保数据处理、
36、实验设计、相图评估和新化合物预报、安全检查、分析化学数据处理等方面得到日益广泛的应用。,近20多年来,QSAR研究已扩展到考虑分子三维结构与其活性的关系,称为3D-QSAR。与2D-QSAR有所不同,3D-QSAR不太注重所研究分子的基本骨架相似,而更注重其作用机理相似。如果样本集内每个分子都以相似的方式作用于受体同一靶点,各个分子的生物活性差别就取决于它们所产生的分子场的差别,分子场反映了药物分子与受体靶点产生非键相互作用的能力和特性。,1. CoMFA与CoMSIACoMFA是最负盛名的3D-QSAR方法。这种方法没有直接考虑受体环境,而是通过分子场间接考虑药物分子与生物大分子(受体)的非
37、键相互作用,比2D-QSAR更合理、获取的信息更丰富、物理意义更清楚,对新药设计的指导原则也更明确。CoMSIA是其改进方法,分子场的能量函数采用与距离相关的Gauss函数形式,定义了立体场、静电场、疏水场、氢键给体场和氢键受体场共5种分子场。,2. CoMSIA建模和预测的基本步骤CoMSIA与CoMFA处理问题的步骤大体相同。我们曾用Sybyl程序中这两种方法,对99个鬼臼毒素类化合物抑制KB细胞生长的活性进行3D-QSAR研究。下面以此为例,介绍CoMSIA建模和预测的基本步骤:(1) 将样本划分为训练集和测试集(本例以80个分子组成训练集,19个分子组成测试集)。对所有分子进行结构优化
38、,并确定药效构象;(2) 根据某种规则或公共子结构,将训练集的所有分子向着一个选定的模板分子叠合起来。本例选取活性最高的92号分子为模板,叠合结果如下图,图中部的稠环为公共子结构;,(3) 在叠合的分子周围产生一个包容所有分子的矩形盒, 并按一定步长划分成三维网格,产生规则排列的大量格点;(4) 用某种原子、分子或基团作为探针在矩形盒中移动, 计算探针在每个格点上与每个分子的各种作用能, 作为描述符;(5) 输入活性指标;(6) 用偏最小二乘法(PLS)进行回归,以获得QSAR模型;(7) 将计算结果用不同色彩显示成各种分子场的3D等值面图。,(a) 立体场用绿、黄两色表示, 在绿色区增大基团
39、体积或黄色区减小基团体积,有利于提高活性;(b) 静电场用红、蓝两色表示,在红色区增加负电荷基团或蓝色区增加正电荷基团,有利于提高活性;(c) 疏水场用桔黄、白两色表示,在桔黄色区有疏水基团或白色区有亲水基团,有利于提高活性;(d) 氢键给体场用蓝绿、紫两色表示,蓝绿色区域的取代基为氢键给体有利于提高活性,紫色区域的取代基为氢键给体不利于提高活性;,(e) 氢键受体场用紫红、紫罗兰两色表示,紫红色区域的取代基为氢键受体有利于提高活性,紫罗兰色区域的取代基为氢键受体不利于提高活性。据此可知,为提高分子的活性,哪个区域应当具有,或者应增加或取代哪种基团。,CoMSIA模型的分子场3D等值面图 (a
40、)立体场, (b)静电场, (c)疏水场, (d)氢键给体场, (e)氢键受体场,为看得清楚,可以分别画出单个分子的每一种分子场的3D等值面图:,Q2接近于0.00时得到的模型完全没有用处;Q2 0.40时方可谨慎地使用模型;Q2越接近于1.00统计意义越显著。 (8) 利用训练集得到的3D-QSAR模型,对测试集的活性进行预测。,训练集和预测集活性的计算值与实验值对画图,CoMFA和CoMSIA已得到广泛应用,但有一些严重缺陷,首先是模型对叠合规则非常敏感,模板分子选择不当,或叠合分子的空间取向、格点数目的微小变化,都能使模型的性能发生明显变化。,为克服3D-QSAR的某些缺陷,近年来出现了
41、3D以上的QSAR。4D-QSAR基于3D-QSAR,最终也以3D-QSAR方式表达计算结果。所谓第四维,主要是“集成采样”,即不仅采集最低能量构象,而且采集与此构象能量差在2kcal/mol以内的所有构象,形成最优能量构象集合。5D-QSAR又增加了受体对配体的诱导契合,6D-QSAR进一步增加了不同的溶剂合模型。,20世纪90年代以来,依赖受体三维结构、基于分子与受体相互作用的分子对接(Docking)取得显著进步,逐步成为药物分子设计最重要的方法。基本思想就是“钥匙与锁”的关系。分子对接计算把药物活性分子放在受体的活性位点附近,根据几何互补、能量互补、化学环境互补原则,评价药物与受体相互作用的好坏,找出最佳结合模式。已有几种程序能够执行这样的任务,如DOCK、AUTODOCK和SYBYL软件包中的模块FiexX等。,化学理论的最重要作用是提供一种思维体制,以总结更新知识。 R. Hoffmann,