1、高等仪器分析 -化学计量学,主讲人:杜一平,分析化学数据,实验数据 化学分析:单点数据 仪器分析:多维数据 数据维数增加0维-标量;1维-向量;2维-矩阵;3维-张量; 样本数量增大 数据量越来越大趋势,数据库,海量数据,大数据(big data) 大数据量显然信息量大,但挖掘有用信息难度也大;数据处理方法研究越来越重要:化学计量学 方法应用不止局限于分析化学学科:相关学科,不同产地南丰蜜桔HPLC指纹图谱,收集江西(18个)、福建(18个)、湖南(18个)和广西(10个)南丰蜜桔样品,经有机溶剂提取后进行HPLC分析 X:464632,对64个HPLC色谱图进行主成分分析:X = U S V
2、T 特征值:前3个主成分特征值的所占比例,58.0%、11.2%、8.4%,剩余21.4% Scores散点图:样本点分类,光谱数据和定量校正曲线,光谱成像数据,图 三维成像光谱数据示意图,蛋白质各级结构 (a) Primary structure (b) Secondary structureAlu-Glu-Val-Thr-Asp-Pro-Gly-Helix-Sheet (c) Tertiary structure (d) Quaternary structure图 肽链在空间卷曲特定的三维空间结构,数据的表达-数字化,0维-标量:x=2;1维-向量:x=1 3 5 7; 2维-矩阵:X=;
3、3维-张量:Z=X1 X2 X3 ,1971年,瑞典化学家Swante. Wold(Umea university)在申请一项基金时,提出了化学计量学(Chemometrics)这个名词。,Chem-istry metrics Chemometrics Econo-mics metrics Econometrics,化学计量学简介,Bruce R. Kowalski University of Washington,他们被公认为是化学计量学的创始人。,美国Bruce. R. Kowalski 非常赞赏这一叫法。后来在1974年与Swante. Wold合作成立了国际化学计量学学会。,化学计量学
4、简介,一门运用数学、统计学、计算机科学以及其他相关学科的理论与方法,优化化学量测过程,并从化学量测数据中最大限度地获取有用的化学信息的学科。 化学中的一门分支学科(分析化学) 多学科交叉的新学科,化学计量学定义,解决问题策略:分析化学利用计算机为手段,利用数学和统计学方法实现数据的解析。,早期的化学计量学,数理统计方法。 从七十年代开始,统计学、数学、行为科学、经济计量学等领域研究,分析化学学科的一个独特分支-化学计量学。 二十世纪七十年代以后,分析仪器、联用分析仪器的发展,数据容量迅速增加。大量的数据的有用信息,需要发掘方法。 九十年代以后逐渐走向成熟,应用日广。计算机、分析仪器、其他学科发
5、展;需求-生命科学、材料科学、能源等。,化学计量学发展,化学计量学的典型应用,传统定性定量分析:多元分辨、多元校正 仪器量测信号处理:数据处理方法、最优化方法 模式识别:污染源识别、疾病诊断、中药识别、; 试验设计: 分子设计和药物设计:新药发现及结构性能关系(QSAR)研究; 过程分析:工业过程监测和控制。,化学计量学基本特点多维数据:向量,矩阵,张量。 多变量 数据来自各种测量:典型的为仪器分析数据。 信息提取方法:利用各种手段 持续发展的科学,充分利用量测信息,化学计量学研究内容,平滑 求导 拟合 主成分分析,化学计量学方法:常用数据处理方法,平滑就是一种去除或减少噪声以提高信噪比的数学
6、方法。,平滑,窗口移动平均法,x = a0 + a1j + a2 j2 +.+ ap jp,Savitzky-Golay平滑法-多项式拟合,=(YtY)-1Ytx,=,x = a0 + a1j + a2 j2 +.+ ap jp,Savitzky-Golay平滑权重系数表 (多项式阶次为2或3),提高信号的分辨率,减少干扰。 紫外-可见光谱分析中用到的导数分光光度分析; 近红外光谱分析中,常用2阶或1阶导数光谱进行定性定量分析; 电化学分析中,有时利用对溶出伏安曲线求导来去除或减少其它组分的干扰,提高被测组分的信噪比。 有很多种类的分析仪器已经把求导作为一种固定的方法,加入到仪器的数据处理软件
7、中 。,求导,1.差分法,2. Savitzky-Golay拟合法,x = a0 + a1j + a2 j2 +.+ ap jp一阶导数:dx/dj= a1 + 2a2 j+.+ pap jp-1 当j=0时,dx/dj|j=0= a1二阶导数:d2x/dj2= 2a2+6a3j+(p-1) pap jp-2 当j=0时,d2x/dj2|j=0= 2a2当j=0时(即对应窗口的中心点),各阶导数计算的通式dqx/djq|j=0= q! ap,窗口宽度k=9,p=4,3阶导数表达式, d3x/dj3|j=0=1/198( -14x -4+ 7x -3+ 13x -2+ 9x -1-9 x1-13
8、x2-7x3+ 14x4),拟合,实验数据 理论解释 研究变量之间关系:y=f(x),多个变量,y=f(x1,x2,),函数拟合基本思想,=f(a,x) Ei= - yi = f(a,xi) -yi 差方和E2最小。,线性函数拟合y=a+bx1+cx2,y=f(a,x)+e,拟合计算工具,Excel,Matlab:b=fit(X,y,fittype) 功能强大,点中曲线,右键选择添加趋势图,主成分分析,主成分分析,Principal Component Analysis, PCA 最基本的化学计量学方法之一 是很多复杂化学计量学方法的基础 应用广泛,主成分分析,四个产地南丰蜜桔样品HPLC分析
9、 X:464632,对64个HPLC色谱图进行主成分分析:X = U S VT 特征值:前3个主成分特征值的所占比例,58.0%、11.2%、8.4%,剩余21.4% Scores散点图:样本点分类,一种重要降维方法 基本思想:对量测矩阵Y中的各个变量进行线性组合,形成新的变量,称为主成分。主成分计算原则是得到主成分表达的方差最大,化学意义就是所含信息最多。 计算方法:按方差最大,计算各个变量的线性组合,得到第一主成分;对剩余的矩阵,即量测矩阵Y减去第一主成分表达部分,再按方差最大原则,计算各个剩余变量的线性组合,得到第二主成分;依次计算第三、第四、 主成分。 新变量之间相互正交。 方差代表表
10、达的信息量,按顺序减少,可用来评估主成分解释的信息百分率。 Matlab方法 U,S,V= svds(X,n),主成分分析,多个主成分,多个投影方向 多维主成分分解(n) x=x1 x2 . xn 将x投影到vi1 vi2 vint上得到新变量yi, vi1 vi2 vint就是系数向量,即投影方向。 所有n个新变量组成矩阵Y yi=vi1x1+vi2x2+vinxn ,(i=1,2,n),例,高分子液晶材料在不同温度下结晶情况,Structure and the phase transition temperatures of FLC-1.,Infrared transmission spe
11、ctra of 11-layer LB films of FLC-1 measured at room and elevated temperatures.,Temperature dependences of the frequencies of the CH2 symmetric stretching band (a), C=O stretching band of the part near the chiral carbon atom (b) and the phenyl ring stretching band (c) for the 11-layer LB films of FLC
12、-1.,PC1 vs. temperature plot in both 40-80C (a) and 27-55C (c) temperature intervals and those in full measured temperature range (b) at range of 1450-1745 cm1 for the 11-layer LB films of FLC-1.,几种化学计量学方法简介,多元校正多元分辨模式识别定量构效关系最优化方法,校正-定量分析 经典分析化学的校正方法-校正曲线y=cx+e 多变量校正 y=y1 y2 . ym =cx1 x2 . xm +ey=c
13、1x1+c2x2+.+cnxn+e y=Xc+e,多变量校正,多元线性回归MLR,多元线性回归方法-最小二乘法: y=Xc+e e = y- Xc 残差平方和 S= ete = (y- Xc)t(y- Xc) =yty-yt(Xc)-(Xc)ty +(Xc)t(Xc) =yty - ytXc - ctXy +ctXtXc =yty - 2ytXc +ctXtXc = -2Xty +2XtXc=0 则, XtXc =Xty =(XtX)-1Xty Matlab: c=inv(X*X)X*y,多元线性回归解具有优良的统计学性质 多元线性回归解的性能指标=(XtX)-1Xty , =X 相关系数:R
14、2= =1 -残差平方和RMS 多元线性回归应用 建模与浓度计算 y=Xc+e,常见多元校正方法,多元线性回归,MLR, y=Xc+e 主成分回归法,PCR 通过PCA计算主成分,取前面若干主成分Z=Xv进行MLR,y=Zc+e=Xvc+e 偏最小二乘回归,PLS 通过类似PCA方法计算主成分(称为PLS因子),取前面若干因子Z=Xv进行MLR,y=Zc+e=Xvc+e 计算PLS因子时同时考虑X和y因素。 支持向量机,SVM 人工神经网络,ANN,四种不同液体表面活性剂,羟值相关性,酸值相关性,NIR光谱PLS校正结果 (两个组分校正),分辨就是解决干扰问题,即从混合组分复合量测信号中分辨、
15、解析出被测组分“纯”的分析信号。利用多个分析通道(如波长、保留时间等)的信息进行分辨就称为多变量分辨,又称多元分辨。,多变量分辨,近些年来,化学计量学中的多变量分辨方法研究和应用非常活跃,尤其是在解析色谱重叠峰上取得了很大成功。,多变量分辨算法很多 渐进因子分析法 (Evolving Factor Analysis) 窗口因子分析法 (Window Factor Analysis) 直观推导式演进特征投影法 (Heuristic Evolving Latent Projections) 正交投影分辨法(Orthogonal Projection resolution) 子窗口因子分析法(Sub
16、window Factor Analysis),麦秸高温高压裂解气相产物,GCMS分析 经HELP解析确定了整个保留时间内共有组分45个,模式识别(Pattern Recognition)就是研究对象的分类。20世纪60年代初开始迅速发展,首先在信息科学和人工智能领域使用,比如图像识别、语音识别。 模式识别交叉学科:统计学、计算机科学、人工智能和专家系统、控制论、应用学科(如生物学、心理学、语言学、化学等)等。 化学模式识别就是利用已有的模式识别技术和针对化学问题的特点而发展的模式识别技术,处理和分析化学数据,研究和解决化学问题,它是化学计量学的一个重要组成部分。 化学模式识别方法已经用于分析
17、化学、物理化学、无机化学、药物化学、食品化学、农业化学、医药化学和环境化学等学科,取得了不少成果。,化学模式识别,有监督的模式识别: 距离判别分析法、Fisher判别分析法、Beayes判别分析法,逐步判别分析法、线性学习机、K邻域判别法、势函数判别法、人工神经网络判别法等 无监督的模式识别:聚类分析 特征投影的降维显示方法: 主成分分析的投影显示法、SIMCA方法、基于偏最小二乘分解的特征投影法等,模式识别方法:,定量结构活性关系(Quantitative Structure Activity Relationship, QSAR),简称定量构效关系,就是研究化学结构与化学物质的生物活性之间
18、的关系,研究如何从物质的化学成分与结构来定量预测其化学特性。 它是化学计量学的一个重要分支。,定量构效关系,药物设计:是现代化新药开发工作非常重要的一个环节,从20世纪60年代以来,经过40多年的不断探索和努力,现代药物设计的策略和方法已经大为丰富。 最基本的药物设计方法就是从一组(例如几十个)小分子化合物的结构和生物活性数据出发,利用定量构效关系方法,研究其结构-活性关系的规律,在此基础上预测新化合物的生物活性(药效)和进行高活性分子的结构设计。 分子设计:材料分子设计,荧光探针分子设计等。,定量构效关系研究: 化学结构描述符 :化学结构数字化 定量构效关系建模 :建立模型,现代最优化方法,
19、现代最优化方法 - 搜索全局最优解模拟退火法遗传算法人工神经网络蚁群算法 粒子群算法,遗传算法(Genetic Algorithm,GA),达尔文进化论思想,适者生存 模拟生物的自然进化过程进行最优解搜索。 自然进化的特征在20世纪60年代得到美国Michigan大学的John Holland极大兴趣,他和他的学生们吸收了自然进化的思想,提出机器学习的新算法,Holland将其取名为遗传算法。 1975年,Holland出版了颇有影响的专著Adaptation in Natural and Artificial Systems, 之后,遗传算法才逐渐被人们所知。,遗传算法基本思想,生物遗传基本
20、单元 个体 染色体(基因) 种群 繁殖过程 进化规则:优胜劣汰,遗传算法基本思想 个体编码:染色体 - 群体生成 迭代运算:3种进化 适应性值评估,遗传算法由六个基本的操作组成: 1)编码:根据要解决问题的特征,将问题的解在其解空间中表示成遗传空间的基因型串结构数据(染色体)。 2)初始群体的生成:随机产生N个初始串结构数据,每个串结构数据称为一个个体,N个个体构成了一个群体。 3)适应性值评估检测:适应性函数表明个体或解的优劣性。 4)选择:目的是为了从当前群体中选出优良的个体,使它们有机会作为父代为下一代繁殖子孙。 5)交叉:最主要的遗传操作。通过交叉换操作可以得到新一代个体,新个体组合了
21、其父辈个体的特性。交叉换体现了信息交换的思想。随机产生交叉。 6)变异:首先在群体中随机选择一个个体,对于选中的个体以一定的概率随机地改变串结构数据中某个串的值。,随机性:保证不陷入局部最优,遗传算法实例,151种血脑屏障穿透化合物,利用遗传算法从154种分子结构描述符中选择有限数目的描述符,建立这些化合物结构与血脑屏障穿透能力之间的关系,本项工作的关键就是变量选择(即描述符选择)。,解题难点,变量优劣评价方法 151个样本变量组与指标建模,考察模型好坏。 变量选择方案 穷举:变量组合数目及其庞大, ,其中, 继续计算out of memory。无法计算。 单因素轮换:单变量最优-加入第二变量
22、-最后,从中选择最优结果,154+153+1=11935,贪婪算法,局部最优 遗传算法思路 随机安排初值 三种进化机制优化变量 进化过程随机性避免落入局部最优,1)二进制编码:用154位的二进制串来表示变量,即表示154个结构描述符,如果串中某位为0表示对应的变量没有被选择,反之为1就是选择了该变量。,2)适应性函数FIT :用选择的变量代表化合物结构,用多元线性回归方法MLR建立变量与血脑屏障穿透能力之间的构效关系模型,利用去一交互检验法LOO计算相关系数Q。式中的n是化合物数目,k为所选变量个数。 FIT越大越好。,3)群体大小为500,进化次数,即迭代次数定为5000次。 4)遗传算法计
23、算- 随机性 初始二进制编码为随机产生 使用轮赌方式进行选择,交叉和变异发生的点位都随机产生,交叉时,将双亲二进制串从随机产生的交叉点向后的所有位进行交叉,变异时每次只是对随机产生的点进行变异。交叉和变异对进化过程影响非常大,所以对它们加以限制,即并非每次都发生交叉和变异,而是用概率来进行控制,交叉概率为0.6,变异概率为0.2。,赌轮方式选择(根据FIT数值计算概率)选择4个个体根据FIT计算概率绘制赌轮0-1(0%-100%)随机产生一个数(0-1之间)确定选中的个体,进入配对库从配对库中随机配对,进行交叉,交叉,变异,5)对这组数据进行计算后,最优结果选择了6个变量,得到的构效关系模型如
24、下: LogBB=0.120-0.001650+0.001469-0.0011128+0.0057146-0.0108147 +0.0395152,遗传算法本质 提供一个最优解搜索策略 很多操作参数需选择和优化 随机性 三个优化方式是核心,人工神经网络(Atificial Neurial Network,ANN),1943年,Warren McCulloch和Walter Pitts根据已知的神经细胞生物过程原理,构造了人类历史上第一次的人工神经元,后来,人们称它为M-P模型。 各种人工神经网络:感知机、自适应线性神经网络、Hopfield网络模型、Boltzman机、反向误差传播训练算法等
25、非线性关系,生物神经元 组成:细胞体、树突和轴突 树突:接受外界信号 轴突:向其他神经元传递信息 细胞体:处理信号 生物神经系统 人的神经系统1011个神经元 每一个生物神经元都是生物组织和化学物质的有机结合,人工神经元,人工神经网络: BP模型-反向误差传播人工神经网络,BP算法提供了一种寻优的框架围绕算法的基本框架,适当调整网络内容,到达更好的运算结果,人工神经网络实例-定量分析,多元校正:非线性关系 苯巴比妥、安替比林、盐酸麻黄碱、非那西丁、咖啡因、茶碱和可可碱7种组分,配制不同浓度搭配的混合液27个。在190-320nm光谱范围测定各个混合液的紫外光谱。此体系光谱在190-320nm范
26、围内为非线性光谱。将光谱数据进行主成分分析选择使8个主成分,并进行数据归一化。 输入数据:27样品8变量 输出目标:7种组分的浓度,输入层有9个神经元,分别输入8个主成分数据和一个偏置信号 隐含层也有9个神经元 输出层有一个节点,输出被测组分浓度 。 输出函数使用S函数。 各个初始权值Wij和Wjk,都在区间-0.5,0.5内随即产生。,18个样品数据作为训练集,用于学习6个作为监控集,用于监控训练过程,确定何时终止训练 3个作为未知集,用于对整个模型进行检验,用BP算法和PLS算法得到的苯巴比妥、盐酸麻黄碱、咖啡因的计算误差,用BP算法比PLS算法好的原因:解决了非线性问题,Thank you !,