1、1702006-2007 化学信息学(计算机化学)学科发展报告随着化学信息的大量积累及计算机与网络技术的飞速发展, “化学信息学”已成为化学学科的重要分支之一。尽管尚缺乏被广泛接受的严格定义,但其精髓可描述为“从数据到信息然后到知识”的说法已得到普遍认可,其具体研究内容包括:计算化学、分子模拟与设计、化学计量学、数据挖掘与知识发现及 Internet 的利用 16-1,2。(一) 化学信息学在社会与经济可持续发展中的地位与重要性门捷列夫可被认为是最早的化学信息学家,他通过对化学元素结构与性质的总结建立了化学元素周期表。近年来,化学信息学在功能材料与分子设计、产品质量评价与控制、环境检测与控制、
2、生命与健康、疾病诊断、各类“组学”的数据挖掘、复杂体系分析、智能分析仪器及新产品开发等研究领域中均发挥了重要作用,为社会与经济的可持续发展奠定了理论与技术基础 16-3,4。例如,虚拟筛选 (VHTS)和定量构效关系(QSAR)等化学信息学技术的引入不仅明显缩短了新药研发周期而且大幅度降低了开发成本;“指纹图谱”的提出与应用为中草药的质量评价与控制提供了关键技术。(二) 近两年化学信息学的研究进展化学信息学在理论化学、分子模拟与设计、化学计量学、数据挖掘以及 Internet 资源的利用等方面均取得了重要进展 16-5。分子模拟研究为药物分子的筛选建立了快速的虚拟高通量筛选(VHTS)方法 1
3、6-6、为药物的全新设计(de novo design)提供了研究方法和手段 16-7、为蛋白质- 配体之间的相互作用研究建立了新的计算方法 16-8、为小分子化合物的ADME/Tox 及其它理化性质发展了理论预测方法 16-9。理论化学计算与实验科学相互结合用于合成化学和材料设计,实验结果与计算结果得到了相互印证和补充 16-10,11。分子动力学、Monte Carlo 模拟在化学、生物、材料等领域得到应用 16-12,13。基于分子力学的优化方法被广泛关注,新的优化算法不断涌现 16-14。为了扩展微观的分子力学与分子动力学方法的时空尺度, “粗粒化” 力场的方法被重视和发展,多尺度的模
4、拟方法被关注 16-15。化学计量学在新方法和应用研究方面均取得了丰硕成果 16-16,小波变换 16-17等方法为分析化学信号处理带来了新的手段,高维数据的解析方法为现代联用仪器的数据处理提供了理论和技术基础 16-18,19,多元校正为复杂体系的分析提供了实用技术 16-20,指纹图谱为中草药等产品的质量评价与控制提供了有效手段 16-21。计算系统生物学 (Computational Systems Biology)16-22是近几年发展起来的新的研究课题,组学数据管理系统 (PRISM)16-23以及基于 Matlab的系统生物学定标语言(SBML) 16-24已被报道。作为新的计算技
5、术,量子计算和 DNA 计算在近几年也取得重要进展。面向化学领域网络数据和计算资源共享工具的研究发展迅速,化学资源搜索引擎、数据集成及数据共享相关标准、数据与计算集成等得到了广泛关注 16-25。(三) 我国化学信息学研究的地位与近期研究进展171近年来,我国的化学信息学研究得到了快速发展,在某些专题的研究方面达到了国际前沿水平。表 1 列出了 2000 年以来某些研究专题的论文被 Web of Science 数据库的收录情况以及国内外论文数量的比较。可以看出,在近期比较热门的“新药研发”和相对比较传统的“计算化学”研究专题方面,我国的论文发表情况仍比较落后;在 “QSAR/QSPR”及“
6、化学计量学”研究方面,我国的论文发表数量名列第二,但与美国相比仍有一定差距;而在研究范围较窄的研究专题“小波分析”研究方面,我国的论文发表数量则处于领先地位。表 1 2000-2006 年 Web of Science 数据库收录的论文发表情况及国内外论文篇数的比较中 国 美 国关键词论文总数 数量 名次 百分数 数量 名次 百分数Drug Discovery 8611 244 9 2.8 4538 1 52.7Computation* Chem* 8279 374 7 4.5 3483 1 42.1(QSAR OR QSPR) AND Chem* 1954 244 2 12.4 575 1
7、29.4Chemometrics 1448 142 2 9.8 316 1 21.8Wavelet* AND Chemistry 69 28 1 40.6 15 2 21.7近年来,我国学者开展了 MM/PBSA 、GB/SA 、MM/SASWA 及 MM/PBSA 等一系列方法研究,并对某些受体-配体之间结合自由能、蛋白质的水合自由能等进行了计算和预测,得到了与实验结果吻合的计算结果 16-26。建立了生物利用度、溶解度、 logP、pK a、caco-2穿透、肠吸收、血脑屏障穿透及化合物 ADEMT 性质预测 16-27等多种模型,得到了良好的预测效果 16-28。在 QSAR/QSPR
8、研究方面,通过引入投影寻踪新技术,找到了烷烃、烯烃和环烷烃色谱保留指数分布的内在结构关系和知识规律 16-29;通过正交投影技术对不同拓扑指数所表征的结构信息进行比较,为找到更好的结构描述子提供了理论基础 16-30;通过对模型评价、稳健方法、分类建模等方法的研究,得到了比 PLS 更优秀的建模方法 16-31。化合物结构特征提取是 QSAR/QSPR 研究的基本步骤和重要环节,我国学者提出了 “广义三角形法”、 “广义二面角法” 、 “结构投影法”、 “投影边界数学描述法 ”等一系列方法,得到了创新性的研究结果 16-32。从 量 子 化 学 和 统 计 力 学 的 原 理 出 发 , 提
9、出 并 建 立 了 分 子 的 亲 水-亲 脂 势(HMLP), 并 用 于 蛋 白 质 分 子 的 折 叠 以 及 相 互 识 别 与 作 用 等 问 题 的 研 究16-33。 粒子群算法的变量分区方法、逐步超球建模方法以及支持向量机技术等也在 QSAR 研究中得到应用 16-34,35。此外,利用 QSAR 研究方法对新材料的物理化学性质与其原子结构参数、化学配方、加工工艺等的关系研究以及熔盐相图研究充分显示了化学信息学的应用潜力 16-36,37。基于蛋白质或基因的一级序列进行相似性比对、结构预测、功能预测以及编码区域或活性位点的识别是化学信息学与生物信息学的交叉研究内容。我国学者对
10、PDB 数据库中的蛋白质序列进行了邻位效应和不对称性分析、对人类基因组与病毒基因组序列的不相容性进行了分析;傅立叶功率谱、小波变换、时频分析、人工神经网络、支持向量机等方法也172被用于基因或蛋白质序列分析,得到了良好的结果,采用 Delaunay 三角算法、主成分分析方法等进行蛋白质的结构预测也进行了尝试 16-38,39。我国的化学计量学方法与应用研究处于国际前沿水平,近年来在高维数据的解析方面取得了突出成绩。提出了基于 PSO(粒子群优化)的样品加权和波长加权 PLS 回归方法 16-40,显著改善了模型的准确性和预测能力。针对三维数据解析中存在的问题,发展了交替三线性分解(ATLD)算
11、法,提出了交替惩罚三线性分解(APTLD) 、交替不对称三线性分解(AATLD)、交替拟合残差(AFR) 等交替迭代算法以及三线性渐进因子分析法、顶点矢量顺序投影法等非迭代算法 16-41,42,为三维数据分析算法在化学中的应用注入了新的生机,实现了在现代分析化学中实际复杂体系的直接快速定量分析。此外,针对化学数据的特点,非负矩阵分解和投影图旋转法也得到了发展与应用,拓展了黑色体系分析的理论和方法 16-43。小波变换是新兴的化学计量学方法,我国学者对其在化学领域中的应用研究方面做出了突出成绩,在 Acc. Chem. Res.上发表了综述论文 16-44,出版了Chemometrics: f
12、rom basics to wavelet transform专著 16-17。近两年小波变换在分析信号的数据压缩、背景扣除与重叠信号分辨等方面的工作仍在继续 16-45,小波变换用于化学振荡信号分析,也得到了满意的结果 16-46。多元校正是化学计量学的特色研究内容,为复杂体系的分析提供了有效工具。在多元校正的建模方法研究中,支持向量机(SVM) 、局部建模及多模型建模等一系列新的建模方法被成功用于 NIR 光谱分析 16-47,48。独立成分分析等新技术化学计量学方法与 NIR 技术结合对中药产品进行质量鉴定与控制得到了系统研究 16-49,50。中药指纹图谱是目前国际公认的控制中药或天然
13、药物质量的最有效手段。我国学者开展了复杂体系解析的化学计量学方法与指纹图谱分析技术相结合的基础研究,同时也进行了在中药、香精香料、代谢组学等领域的应用研究,为复杂体系的定性定量分析、中药等复杂体系的质量控制及在代谢组学中的应用提供了新思路和新方法 16-51。在计算化学和分子模拟(包括量化计算、分子动力学、 Monte Carlo 模拟、分子力学等)研究方面,我国学者越来越注重实际体系的计算与模拟 16-5254。分子动力学在生物大分子结构功能动态大规模模拟中的应用研究处于世界先进水平 16-55。基于数据库遗传算法的靶标集中组合库构建方法发展及其在新药发现中的应用结果得到了国内外同行的高度关
14、注 16-56。建立了快速退火演化算法 (FAEA)、自适应免疫优化算法 (AIOA)、动态格点搜索(DLS)算法以及基于建模的优化算法等一系列新算法并在团簇的结构优化和主-客体系的模拟中得到应用 16-57,58。此外,在用分子模拟方法揭示高分子链的缠结现象对 聚合物结晶过程的影响,以及运用耗散粒子动力学方法探察材料表面拓扑结构图案对表面疏水性的影响等研究中取得了一些新的进展 16-59,60。化学信息的组织、管理与应用是化学信息学的核心研究内容之一,我国在化学数据库的研制和软件开发方面开展了大量工作,并逐步形成具有知识产权的产品,其中中国科学院上海有机化学研究所在化学结构数据库、化学谱图数
15、据库以及化学信息管理方面的研究工作已获得初步成功 16-61,62。在 Internet 资源的组织和利用方面,中国科学院过程工程研究173所对所建立的 ChIN(The Chemical Information Network)16-63不断更新,访问请求数已经超过1 亿次;并建成了一个化学专业搜索引擎的原型系统 ChemEngine,索引页面约 1000 万页。它采用机器学习的方法实现爬行器面向化学领域的定向爬行及按照化学学科的知识体系对检索结果进行分类 16-64,65。中国科学院上海药物研究所开发出了通过互联网面向世界各地用户的靶标蛋白筛选方法和应用平台,拥有众多用户 16-66。(四
16、) 化学信息学的研究热点与展望化学信息学研究的发展方兴未艾。药物开发、材料设计、复杂体系分析、海量数据挖掘与知识发现、实际化学体系的理论计算以及有关化学信息学新理论和新算法的研究仍然是本学科关注的重点和热点问题。计算系统生物学、网格计算以及基于 Internet 的专业资源挖掘则是近期涌现的新兴研究课题。徐光宪院士指出:“21 世纪的化学信息学将建立各种化学信息库,然后分析信息的内涵,总结出规律,最大限度地挖掘、开发和应用信息宝库,使它们作为实验归纳法和理论演绎法的桥梁,推动化学和化工学科的发展,为国民经济服务。 ” 16-3 随着化学信息的不断积累,化学信息学在化学及相关学科中必将发挥越来越
17、重要的作用。同时,研究对象的复杂化,如疾病的早期诊断、组学体系研究、系统生物学等,使化学信息学面临更严峻的挑战。因此,实际复杂体系分析仍是化学信息学的主要方向之一;加强面向实际问题的化学信息学应用基础研究,以化学信息学手段解决化学、生命、环境、材料等学科中各种复杂的实际问题是该学科的努力目标;数据挖掘和知识发现是化学信息学的核心内容。对海量的化学结构数据和化学测试数据进行深层次挖掘,进行化学结构与各种化学性质和化学行为的定量关系研究将有助于发现新的规律和创造新的知识;面向生命科学问题的研究是化学信息学的重要课题,以生命体系和各种“组学”体系为研究对象,是对该学科的挑战,也是该学科的机遇。算法研究是化学信息学的基本任务,结合解决化学、生命、环境、材料等学科中复杂实际问题进行有特色的方法研究是化学信息学发展不竭的动力源泉。选自 2006-2007 化学学科发展报告