1、化学计量学 第一章 概论,化学计量学,Chemometrics is a new chemical discipline that uses the theory and methods from mathematics, statistics, computer science and other related disciplines to optimize the procedure of chemical measurement, and to extract chemical information as much as possible from chemical data. Ch
2、emometrics could be defined as a discipline of fundamental theory and methodology of chemical measuring.化学计量学运用数学、统计学、计算机科学、以及其他相关学科的理论与方法,优化化学量测过程,并从化学量测数据中最大限度地获取有用的化学信息,可以说是一门化学量测的基础理论与方法学。,为什么,科学的发展与技术的进步使得化学量测工作仪器化、自动化和计算机化。现代分析仪器能迅速、准确地为人们提供大量可靠的量测数据。化学工作者面临着如何选择合适的实验方法和最优量测过程,对原始量测数据进行再加工,从而最
3、大限度地提取有用的化学及其相关信息。随着计算机科学、应用数学和统计学方法在化学中应用的日益广泛和深入,一门崭新的化学分支学科诞生了。,相关仪器,光谱与波谱分析仪器(原子光谱、分子光谱、核磁、质谱) 电化学分析仪器(电导、电位、电解、极谱、伏安) 色谱分析仪器(气相、液相、离子、毛细管电泳) 流动注射分析仪器 热分析仪器 仪器联用,仪器联用,高校液相色谱-二极管阵列(HPLC-DAD) 气相色谱-质谱(GC-MS) 气相色谱-质谱-质谱(GC-MS-MS) 毛细管电泳-二极管阵列(CE-DAD) 液相色谱-质谱(LC-MS) 液相色谱-核磁共振谱(LC-NMR),复杂分析体系分析、大量的化学信息
4、分析,仪器的发展、分析方法的发展,分析化学的发展,分析化学是发展和应用各种方法、仪器和策略,以获得有关物质在空间和时间方面组成和性质的一门科学,是表征和量测的科学,也是研究分析方法的科学。它可向人们提供物质的结构信息和物质的化学组成、含量等信息。,分析化学第三次变革,(1)计算机控制的分析数据采集与处理: 实现分析过程的连续、快速、实时、智能; 促进化学计量学的建立。 (2)化学计量学:利用数学、统计学的方法设计选择最佳分析条件,获得最大程度的化学信息。 化学信息学:化学信息处理、查询、挖掘、优化等。 (3)以计算机为基础的新仪器的出现: 傅里叶变换红外;色-质联用仪。,大量科学家因发明新技术
5、、新仪器而获得诺贝尔化学奖!,化学计量学是数学和统计学、化学及计算机科学三者相互交叉而形成的一门边缘学科,是化学中很具有魅力和应用前景十分广泛的新兴分支学科。,按照国际化学计量学学会(ICS)的定义:化学计量学是化学的一门分支学科。它应用数学和统计学方法,设计或选择最优量测程序和实验方法,并通过解析化学量测数据而获取最大限度的信息。,分析化学与分析科学,1、分析科学是分析化学发展新时期。分析化学=分析科学。2、“分析科学”这个名称,标志着 分析化学的内涵和外延有了跨越式发展,其特色包括“过程分析”、“智能分析仪器”、“活体分析活体分析”以及更多的联用技术等; 分析化学工作者的角色已经从数据的提
6、供者跃居为问题的解决者; 分析化学将成为一门立足化学学科,与多学科广泛交叉、为多学科服务的一门学科,逐渐完善和发展自己的独特理论体系的科学分支。3、“分析科学”时代将带来生产和教学模式的革新。,高鸿先生30多年前就预言:“数学在分析化学中的应用日益重要,如果说60年代是分析化学与电子学结合的时代,70年代是分析化学与电子计算机结合的时代,80年代就可以看成分析化学与统计学和应用数学结合的时代。” 美国分析化学杂志Analytical Chemistry将化学计量学作为一个分支领域,每两年进行一次发展总结综述。,化学计量学的研究对象:化学计量学的研究对象是有关化学量测的基础理论和方法学。其内容涉
7、及到统计学与统计方法、实验设计与优化、分析信号处理、多元校正、化学模式识别、定量构效关系(QSAR)、数据库及专家系统。在我国的发展已经有20多年的历史,为化学各分支学科特别是分析化学、环境化学、药物化学、有机化学、化学工程等提供了不少解决问题的新思路、新途径和新方法。,化学计量学的研究对象,化学计量学的任务,其任务是研究有关化学测量的理论与方法学,应用数学、统计学与信息理论、计算机科学的方法和手段,科学地设计化学实验,选择最优的测量方法,最有效地获取体系有用的特征数据,并通过解析测量数据最大限度地从中提取有关物质的定性、定量、形态、结构等信息。,化学计量学是化学信息获取与处理的基础理论与方法
8、学。,分析化学是化学量测与表征的科学,是化学信息科学。,Contents in chemometrics,分析采样理论和方法(Analytical Sampling Theory and Methods) 化学试验设计与优化方法(Chemical Experiment Design and Optimization Method) 分析检测理论与信号处理方法 (Analytical Detection Theory and Signal Treatment Method) 多元校正与多元分辩 (Multivariate Calibration and Multivariate Resoluti
9、on),化学模式识别 (Chemical Pattern Recognition)计算机数字模拟法 (Computer Numerical Simulation)化学构效关系和分子设计 ( QSAR/QSPR)人工智能与化学专家系统 (Artificial Intelligent and Chemical Expert Systems),化学知识数据库 representation and computer-based searching of chemical databases 计算机辅助分子设计 computer-aided molecular design 化学软件中新方法、新算法 d
10、evelopment of new computational methods or efficient algorithms for chemical software 生物制药化学中生物活性分析药物开发 biopharmaceutical chemistry including analyses of biological activity and other issues related to drug discovery.,20世纪50年代以来,化学信息的获取技术的不断进步,分析仪器的发展,使得化学信息的产生与累积达到了空前的程度,化学家们从直接的化学信息获取过程已经不能获得量测对象相
11、关的化学信息,信息的处理与解析成为化学问题解决的瓶颈!,化学计量学是化学与分析化学家面临“数据爆炸”解决问题的手段。,“数据爆炸”,化学计量学与信息提取,*,化学信息处理,信息提取: 数据处理过程,21世纪以来,基因组、蛋白组计划,大量生物化学信息的累计,生物信息的处理成为化学计量学研究的新生长点。,20世纪70年代,化学计量学建立与发展早期,化学家们在计算机上实现了越来越多的数学、统计学方法。,化学计量学的历史发展:,20世纪70年代之前,分析化学中的数理统计方法和定量构效关系研究。,20世纪80年代,许多大学开始讲授化学计量学,化学计量学成为大学化学课程。,20世纪90年代,化学计量学成为
12、许多化学实验室的日常方法,化学计量学方法也成为各种分析仪器的组成部分,是智能化、自动化分析仪器的主要模块。,什么是化学计量学?,化学计量学运用数学、统计学、计算机科学、以及其它相关学科的理论与方法,优化化学量测过程,并从化学量测数据中最大限度地获取有用的化学信息,可以说是一门化学量测的基础理论与方法学。,“化学计量学”(chemometrics),生物计量学(biometrics),经济计量学(econometrics),20世纪70年代 瑞典Wold,1. 发展化学数据解析的新理论和方法,计算机科学、统计学、应用数学及信息科学的发展为化学计量学注入了新鲜血液,经典的多元校正和多元分辨及化学模
13、式识别在的理论和算法研究上也得到了长足发展。,偏最小二乘法、 SIMICA、,渐近因子分析方法、秩消失因子分析法,化学计量学的发展表现在两方面:,2. 化学计量学在近红外光谱分析中的应用,光谱预处理 波长分析 光谱校正 去除背景 去除噪声 建模定性定量分析,光谱预处理方法,光谱平滑、求导 多元信号校正(Multiple Signal Correction, MSC) 正交信号校正(Orthogonal Signal Correction, OSC),建模分析方法,偏最小二乘(Partial Least Squares, PLS) 主成分回归(Principal Component Regres
14、sion, PCR) 多元线性回归(Multiple Linear Regression, MLR) 人工神经网络(Artificial Neural Network, ANN),3. 多元分辨方法解决复杂组分色谱重叠峰问题,渐进因子分析法(Evolving Factor Analysis, EFA) 窗口因子分析法(Window Factor Analysis, WFA) 直观推导式演进特征投影法(Heuristic Evolving Latent Projections, HELP) 正交投影分辨法(Orthogonal Projection Resolution, OPR) 子窗口因子分
15、析法(Subwindow Factor Analysis, SFA),4. 定量构效关系及其在药物设计中的应用,定量结构活性关系(Quantiative Structure Activity Relationship, QSAR) 定量结构性质关系(Quantiative Structure Property Relationship, QSPR),药物开发,药物分子设计 开发的过程漫长(10-20年)、昂贵(3-5亿$)和艰难 筛选法成功率约为1:15000,分布,潜能,选择,物化性能,吸收,Chemometrics opens the door for obtaining useful c
16、hemical information from the measurement data given by modern analytical instrumentation 化学计量学为解决各类复杂化学问题提供了有用的手段,QSAR是药物设计、材料设计、化合物环境毒性评估等有用的工具。 化学模式识别还可用于产品品质评估、商品检验、毒品侦揖、疾病诊断、人工嗅觉模拟等诸多方面。 目标转换因子分析探查污染源,化学计量学解析方法在各个化学分支学科的新应用,复杂体系,直接对复杂体系就行分析 获得大量的相关数据 需对数据进行复杂处理才能获得信息 对复杂体系过程的直接控制,复杂信号举例(1) 烟叶部分成
17、分的GC-MS谱图,复杂信号举例(2) 烟草样品的近红外光谱,烟叶的组成 4,000种化合物。 烟气的组成 6,000种化合物。,复杂信号举例(3) 卷烟烟气的二维色谱图(大连化物所,许国旺),实际体系分析,食品 环境 中药 烟草 石油 组学数据实际样品,传统分析方法:分离 + 分析化学计量学方法: 解析(“数学分离”) 建模 + 预测,化学计量学-化学量测的基础理论与方法学,1. 发展化学数据解析的新理论和方法2. 化学计量学解析方法在各个化学分支学科的新应用研究,现代分析化学与化学计量学,现代分析化学面临的机遇与挑战,分析化学学科正经历着巨大变革,由于近年来物理和电子学的发展,各种新型仪器
18、相继问世,昔日以化学分析为主的经典分析化学已发展成为一门包括众多仪器分析(色谱分析,电化学分析,光谱分析,波谱分析,质谱分析,热分析,放射分析,表面分析等)为主的现代分析化学。随着分析手段的不断发展,广大分析化学家们亦感到以“溶液平衡”为基础的经典分析化学已很难满足现代分析化学学科发展的需求,致使Leihaisky的“不管你喜欢不喜欢,化学正在走出分析化学”,“化学仍留在分析化学”和所谓“分析物理”,“分析科学”的热烈议论。1985年11月和1989年10月在维也纳还分别召开了第一次和第二次“国际分析化学的哲学和历史会议”,探讨了分析化学哲学的某些基本问题,这些现象雄辩地告诉人们,分析化学学科
19、正处在急剧分化的告诉发展时期。,无论这种分析手段的分化发展如何迅猛,有一点十分明确,即作为分析化学所研究的对象(化学样本)及研究目的(结构定性,组分定量)始终未变,其原始定义“分析化学是人们获得物质化学组成和结构信息的科学”仍然十分明白和准确,无论是从事波谱分析,色谱分析或其他仪器分析的研究工作,都得与化学样本打交道,通过对化学试样进行测量和数据解析来获取其化学组成(包括不同形态)和结构定性定量信息,从这一角度看,分析化学作为化学分枝学科仍为一完整整体,诚然,由于采用不同分析手段(如电分析,光谱分析,色谱分析等),作为使用不同仪器的分析工作者所需知识不尽相同,研究内容亦有差异,可是,在整个分析
20、过程中,却始终存在着共同的基础与目标,这种情况正如美国分析化学的主编Murray在题为“化学量测科学”一文中指出的那样:“用拓展的眼光来看待今天的分析化学是有益和有帮助的,它的发展已使之成为一门创造和应用新概念,新原理和仪器的策略来测量化学体系及其组分的学科,简言之,分析化学已成为一门化学量测科学”。,如果遵循“分析化学是一门化学量测科学”的思路,就可发现,分析化学学科的变革不是“化学正在走出分析化学”,而是“新仪器和基于物理新成果的量测方法正在走进分析化学”,使分析化学家手中拥有更多的进行量测的工具和手段,怎样有效地从这些新化学量测工具和手段中获取化学家所需的化学组成和结构的信息,当是目前分
21、析化学家急需解决的一个新问题。,在所有的量测手段中,红外光谱及成象(包括近红外)(infrared spectroscopy and imaging),超声波成象(ultrasonic imaging),拉曼光谱及拉曼成象(Raman Spectroscopy and Raman Imaging)和磁共振成象(Magnetic Resonance Imaging,MRI)等有可能使传统量测技术向能提供更多“相关”信息量测方法的转变,“相关”信息能支持产品开发和过程控制,因此,成为过程量测科学中活跃的研究领域之一。,量测科学(process measurement science),色谱、光谱和
22、波谱学及成象技术等是过程量测科学的学科基础,传感器阵列(sensor array),随着芯片技术的发展,可以使传感器微型化并与微处理器集成在一个芯片上,从而导致智能化微处理器的问世。目前,用芯片技术还可以将微传感器、微处理器和微执行器集成于一个芯片构成微系统,也可以将多个传感器集成于同一探头,组成传感器阵列(sensor array),进行多组分的量测,化学计量学方法可用于从复杂混合信号中提取单个组分的信息,并可用来进行优化,进一步提高传感器的选择性和灵敏度。,仪器分析与多组分复杂体系,现代分析化学作为一门化学量测科学,当有其自己的基本特征,正如国家自然科学基金委员会组织的学科发展战略调研报告
23、中指出那样,现代分析化学学科在当今变革中具有如下两个基本特点:(1)“从采用的手段看,分析化学是采用光、电、磁、热、声等物理现象基础上进一步采用数学,计算机科学及生物学等新成就对物质做全面的纵深分析的科学”;(2)“从解决的任务看,现代分析化学已发展成为获取形形色色物质尽可能多和尽可能全面的结构与成分信息,进一步认识和改造自然的科学”。简言之,分析手段的仪器化和化学体系的复杂化已成为现代分析化学学科的两大重要特征。这正是本文以研讨的核心,亦是分析化学计量学近年来得以迅速发展的真正原因。,首先考察一下现代分析化学的仪器分析之基本特征。近几十年来,大量新型仪器(如色谱,光谱,波谱,极谱等)相继问世
24、,尽管其具体内容存在多种差别 ,可都是为我们提供个谱(多变量数据),且这个谱包含有关分析化学样本的定性(含结构)与定量信息。用数学语言说,分析仪器提供的是矢量类型的数据。随着分析仪器的不断进化和联用技术的采用,有些仪器还可产生矩阵(或张量)类型的数据信息(如GC-MS、GC-IR、HPLC-DAD、荧光激发发射光谱、多维核磁共振谱等)。经典分析化学的校正方法只以单点数据(标量)为基点,如光谱以最大吸收点,色谱以面积等来解析仪器数据,势必丢失有用信息,对于产生矩阵类型数据的仪器,经典分析化学更是无能为力。这向分析化学工作者提出了一个新问题,从这些矢量或矩阵形式的数据中,是否能抽取出比单点数据更多
25、,而对分析化学来说又是十分重要的信息呢?,另一方面,我们来考察一下在分析化学家的研究目标形形色色的样本之重要特征。由于生物学、生命科学、药物学、环境科学、材料科学等学科的迅猛发展,对分析化学亦提出了较高要求,即对复杂混合物体系,特别是复杂有机混合物体系给出快速定性定量分析,正是这一要求,使得色谱分析得到飞速发展。可以这样认为,纯品的分析对现代分析化学已不构成特殊困难,困难在于混合物体系的直接快速分析,这样形形色色的多组分体系是否也存在某种特征,针对这些特征,分析化学家是否有相应策略与之对应?,化学计量学当代化学与分析化学的重要发展前沿1 国家自然科学基金委员会, 自然科学发展战略调研报告分析化
26、学, 北京:科学出版社,1993. 2 汪尔康主编, 21世纪的分析化学, 北京:科学出版社,1999, 1-22.,化学计量学发展的推动力: (1)能容易地获得大量化学量测数据的现代分析仪器的涌现; (2)对这些化学量测数据进行适当处理并从中最大限度地提取有用化学信息的需要。,现代分析仪器,EX-EM: 二维激发发射荧光仪 HPLC-DAD: 带光二极管阵列检测器的高效液相色谱仪 CE-DAD: 带光二极管阵列检测器的毛细管电泳仪 GC-MS: 气相色谱质谱联用仪 LC-MS: 液相色谱质谱联用仪等,高维响应数据:矩阵(Matrix)类型立体阵 (Three-way data array)类
27、型,Hyphenated Instrument (联用仪器),Most modern and advanced analytical instrument. e.g. HPLC-DAD, GC-MS, CE-DAD, etc.Combination of two or more instruments,e.g. HPLC DAD (diode-array detector) GC MS (Mass-spectrometer),Get more data/information,HPLC -DAD,3D chromatogram,HPLC chromatogram of nuclueside o
28、f Cordyceps Sinensis (冬蟲草) at one wavelength,Hyphenated Instrument (联用仪器),Hyphenated Instrument (联用仪器),GC instrument,GC chromatogram of peptic powder (平胃散),Mass spectrum taken at retention time 10.2 minutes,Hyphenated Instrument (联用仪器),Advantages : More data is obtained at a retention time. More spe
29、ctral information acquired to give three dimensional (3D) data. Much more information available to analyze complicated system like TCM.,Hyphenated Instrument (联用仪器),Disadvantages : Huge amount of 3D data is obtained. Need data processing methods for information extraction, pattern recognition, etc.
30、Computer power was poor before. Usual practice : Use a few data obtained from HPLC-DAD/GC-MS to find marker components or active ingredients.Now, everything becomes possible with high tech.!,化学计量学算法和程序,化学计量学的精髓主要体现在处理数据的诸多算法。根据算法写出具体的计算机程序。理论上说任何高级计算机语言都可以编写计量学程序。如C语言、Fortran语言、Matlab等。,主要的化学计量学的方法,
31、多元线性回归 主成分回归 偏最小二乘法 人工神经网络 遗传算法 支持向量机算法,多元线性回归,在传统二维构效关系研究中,多元线性回归(Multiple Linear Regression,MLR)是最为常见的统计方法。一个分子可以用很多分子参数来表达,但在建立线性回归模型的时候,为了避免过拟合(over-fitting),只能从这些物理化学参数中选择一部分参数来建立回归模型。一般来讲,化合物的数目和所选取参数的数目比应大于n2(n表示选取的参数个数),也有人提出应大于35(样本数目较大时显然不合适),怎样选择合适的参数一直是定量构象关系研究中的一个难题。而且对于线性回归来讲,当体系噪声较强或干
32、扰严重时,有可能导致所得的模型失真。,主成分回归,主成分回归(Principle Component Regression)方法首先采用主成分分析(Principle Component Analysis,PCA)方法选取重要的因子,然后采用常规的回归方法建立数学模型,从而实现对原来数据的降维处理。所谓主成分,它为一新的变量,而该新变量是原来变量的线性组合。主成分回归的主要步骤包括:数据的标准化处理;由数据的协方差矩阵求得本征矢量;选取主成分实施多元回归分析。,偏最小二乘法,在主成分回归法中,所处理的仅为自变量,而对因变量的信息并未考虑。事实上,因变量中可能包含非常有用的信息。偏最小二乘法(P
33、artial Least Square,PLS)在考虑自变量的同时也考虑了因变量的作用,同时通过折衷各自空间内的因子,使模型较好地同时描述自变量和因变量。PLS的主要优点是:对自变量之间的相关性要求不苛刻;当自变量的数目多于样本的数目时,PLS仍可获得有意义的结果;传统的PCA仅仅考虑自变量的信息,而PLS则同时考虑了自变量和因变量方面的信息,所以更易获得有意义的结果;算法中由于采用交互检验来选取模型中的最佳主成分数目,所以降低了模型的偶然相关性。,人工神经网络,人工神经网络(Artifical Neural Network,ANN)是QSPR和QSAR研究中处理非线性问题的常用方法,其基本原
34、理是受生物大脑的启发,试图模仿人脑神经系统的组成方式与思维过程而构成的信息处理系统,具有非线性、自学习、容错性、联想记忆和可训练性等特点。理论上已证明,具有一个隐含层的ANN网络即可实现对任意连续函数的逼近,实现任何非线性映射。ANN在多元校正、试验条件优化、蛋白质结构预测以及QSPR/QSAR研究中都得到了广泛的应用。从网络的结构和训练算法来分,其中RBFNN由于其简单的优化过程以及较强的非线性拟合能力,故有着非常广泛的应用。,遗传算法,遗传算法是一种借鉴生物界自然选择和自然遗传机制的并行、随机、自适应搜索算法。遗传算法来源于对自然界进化过程的模拟,可以说是对达尔文进化论公式化的表达。其主要
35、思想是利用简单的编码技术和繁殖机制来表达复杂的现象,从而解决复杂问题。它是由复制(replication)、杂交(crossover)、和变异(mutation)三个算子组成。通过不同的多代选择策略,进行杂交和变异操作后,逐一比较新种群中的个体和精华种群中的个体,选择出最优化的种群个体。,支持向量机算法,数学家Vladimir N. Vapnik等通过三十余年的严格的数学理论研究,提出来的统计学习理论和支持向量机算法已得到国际数据挖掘学术界的重视,并在语音识别、文字识别、药物设计、组合化学、时间序列预测等研究领域得到成功运用。SVM在生物信息学中得到了广泛的应用,在HIV蛋白酶裂解点预测、蛋白
36、质折叠和高级结构预测,蛋白亚细胞定位、蛋白与蛋白相互作用研究以及疾病辅助诊断等方面。,化学计量学应用领域,国家自然科学基金分析化学学科项目指南,分析化学是研究物质的组成和结构,确定物质在不同状态和演变过程中化学成分、含量和时空分布的量测科学。分析化学的研究范围广泛,分支甚多,常见的有光谱分析、电化学分析、色谱分析、波谱分析(质谱、核磁等)、表界面分析、无机分析、有机分析、生物分析(包括生化、细胞、免疫、亲和分析等)、环境分析、药物(包括中草药)分析、食品分析、临床与法医检验、材料表征及分析、质量控制与过程分析、仪器研制等;新兴的有微/纳分析化学、芯片分析化学、成像分析、实时分析、在体或活体分析
37、、原位分析、在线动态分析、仿生分析、化学信息学、生物信息学等。凡是与这些领域相关的创新性研究工作,如新原理开发,新方法与新技术发展和应用,新仪器、新装置及关键器件研究等,都在资助之列。,课程内容,矩阵计算基础 分析采样理论和采样方法 化学实验设计与优化方法 分析检测理论与信号处理方法 多元矫正与多元分辨 化学模式识别 化学构效关系,参考书,作者:梁逸曾,杜一平 出版社: 重庆大学出版社; 第1版 (2004年8月1日) ISBN: 7562429103 定价:26元,作者:梁逸曾,易伦朝 出版社: 华东理工大学出版社; 第1版 (2010年10月1日) ISBN: 7562828717, 9787562828716 定价:38元,参考书,保罗戈培林 (编者), 吴海龙、康超 (译者) 出版社: 科学出版社; 第1版 (2012年3月1日) 外文书名:Practical Guide to Chemometrics 定价:98元,参考书,考核方式-闭卷考试,总评成绩:100分,包括: 考勤:10%; 读书报告:40%; 课程考试:50%(闭卷),读书报告,结合自己的研究方向和研究兴趣,查阅与化学计量学相关的文献资料,书写一篇读书报告。 要求:篇幅不少于2000字,文献不少于20篇,其中外文文献不少于10篇;,