1、 基于小波包变换的云芝蛋白和多糖的近红外光谱分析作者:王溪,张益波,查晓清,吴昊,张未闻,李珊山【摘要】 目的采用小波包变换 (WPT)提取云芝样品近红外漫反射光谱的特征信息,结合偏最小二乘法(PLS)建立测定药用真菌云芝中蛋白和多糖含量定量分析模型。方法所建立的模型经过小波包变换尺度分析的选择, PLS 模型参数的优选,在 WPT 变换尺度为 6 时,可以得到最优的分析模型。结果最优蛋白含量分析模型校正集的交互验证均方根误差(RMSECV)为 0.012 63, (Rv)为 0.947 42;应用此模型对预测集样品中蛋白含量进行预测,得到预测均方根误差(RMSEP)为0.010 41,预测集
2、的相关系数(Rp)为 0.958 56。多糖最优分析模型校正集的交互验证均方根误差(RMSECV)为 0.01688,(Rv) 为 0.919 62;应用此模型对预测集样品中的多糖含量进行预测,得到预测均方根误差(RMSEP)为 0.010 43,预测集的相关系数(Rp)为 0.974 28。结论该方法预测精度能满足云芝蛋白定量和多糖含量分析的要求,且方便快捷,无破坏性,可实现在线检测,对替代原有繁琐的云芝蛋白多糖含量测定方法具有重要的意义。 【关键词】 近红外光谱技术 ;偏最小二乘法; 小波包变换;云芝蛋白;云芝多糖担子菌云芝 Coriolus versicolor (L.) Fr 也称为杂
3、色云芝、彩绒革盖菌,是一种野生的药用真菌。野生云芝主要分布在我国东北三省、内蒙、新疆、河北等地,用于治疗气管炎,肝炎,肿瘤,妇科病1等。现代医药学研究表明,从云芝子实体、菌丝体、发酵液中提取的云芝糖肽具有广泛的药理作用,如增强正常机体的免疫功能;拮抗动物因负瘤而引起的免疫抑制2;抑制动物和人癌细胞的生长;拮抗化疗药物引起的免疫抑制;抗溃疡活性及抗病毒、抗肝炎活性3;显著减轻小鼠由热板法醋酸腹腔注射及电刺激引起的痛反应等。并在日本成为一种抗恶性肿瘤的药物。我国已研制出“云芝肝肽” 等制剂,用于临床。对焦虑、忙碌、生活品质日益恶化的现代人而言“云芝”堪称为人们的“体内环保大师 ”。云芝中的蛋白含量
4、高低对云芝糖肽含量和云芝的品质有很重要的影响。传统的蛋白含量和多糖含量鉴定和分析方法存在着一定的缺陷。测定方法相当繁琐费时,难以实现大批量的快速定量检测。如采用蒽酮硫酸法测定松茸中多糖含量和采用凯氏定氮法测定蛋白含量均会对样品有一定损耗,不适用于对大规模样品做无损分析使用。通过测定样品的近红外光谱,并与其蛋白和多糖含量间建立模型(偏最小二乘法) ,可以进行样品含量的无损分析,且测量费用较低。1 材料1.1 材料云芝菌种(中国科学院微生物所,编号:5.0161) 。训练集和预测集样本的制备:由本项目组发酵、收集 51 个不同批次的菌体、冻干粉碎过 60 目筛,制备云芝菌粉备用。1.2 试剂浓硫酸
5、(AR 级);碳酸钠;氢氧化钠; 混合催化剂:K2SO4CuSO45H2O=51;盐酸;硼酸;混合指示剂:取 200 ml 0.1%甲基红-无水乙醇溶液和 50ml 0.1% 甲烯蓝- 无水乙醇溶液混合,贮于棕色瓶中备用。1.3 仪器日本岛津 UV-3150 型紫外可见近红外分光光度计;德国赛多利斯 BP211D 型十万之一电子天平 ;玛瑙研钵;日本岛津 ISR-3100 积分球附件;全自动凯氏定氮仪 2300;联想家悦 E3030 微型计算机。2 方法2.1 原理与算法2.1.1 小波包算法原理4,5小波包分析对逼近系数和细节系数都做了分解,使信号在全频带内进行分解同时可以进行频带的选择,是
6、比小波变换更精细的分析方法(图 1)。S-为原始信号;A-为信号分解的低频系数;D-为信号分解的高频系数 图 1 小波包分解信号的示意图分解后的信号的系数可以按照公式dj,nl= kg0(l-2k)dj+2nk+kg1(1-2k)dkj+1,2n+1 进行重构。其中dkj+1,2n=lhk(2l-1)dlj,n,dkj+1,2n+1=lgk(2l-1)dlj,n2.1.2 小波包的最优分解方式小波包可以组成许多不同的正交基分解结果,形成小波包基,对于所有的小波包基选取信号代价函数值最小者为最优小波包分解。所谓代价函数的最小,即使(s)=isi 最小,其中 s 代表信号, si 代表信号 s 在
7、一个正交小波包基上的投影系数。通常使用的代价函数要求有加和性,即 M(0)=0,M(xi )=iM(xi) 。则 M 为一具有加和性的代价函数。本文选用 Shannons 为代价函数,分解方式参见文献6。2.1.3 偏最小二乘法偏最小二乘法(Partial Least Square, PLS)是目前化学计量学中最有效的分析方法之一7。本文应用近红外光谱法结合 PLS(NIR-PLS)建立云芝中蛋白和多糖含量的定量分析模型,并用所建模型对预测集样品进行预测,得到较好的结果。该方法有望成为一种代替现行真菌活性成分测定的快速绿色分析方法。2.2 云芝蛋白含量的测定应用凯氏定氮法8,对建立模型的云芝菌
8、粉样品进行蛋白测定。具体步骤如下。2.2.1HCl 溶液的标定 Na2CO3 烘干至衡重, 准确称取 0.75 g,定容溶解到 250 ml 的容量瓶,进行 HCl 的标定。2.2.2 样品的蒸馏过程本实验应用全自动凯氏定氮仪测量不同批次云芝菌粉的蛋白含量。经过条件摸索,采用 0.25 g 菌、8 g 催化剂和浓硫酸 12 ml 进行实验,全自动凯氏定氮仪的参数设定为:低温 2 档 15 min,中温 6 档 30 min,高温 8 档 2 h。直到溶液澄清,冷却 15 min。 2.2.3 含量计算用已经标定好的 HCl 溶液滴定蒸馏好的云芝菌粉样品。计算云芝蛋白的含量。2.3 云芝多糖含量
9、的测定采用合理的条件进行多糖的热水浸提,多糖的测定过程采用蒽酮硫酸法。2.4 测量条件应用积分球,光谱通带宽度为 12 nm,扫描波长范围 8002 500 nm,每个样品进行近红外光谱扫描 3 次,取平均值作为该样品的近红外光谱。2.5 数据处理方法 采用小波包变换对近红外光谱进行预处理,运用 Thermo Nicolet 公司 Omnic 软件的 TQ Analyst 部分建立云芝菌中蛋白含量定量分析模型。以校正集样品的交叉验证均方根误差(Root Mean Square Error of Cross-Validation, RMSECV) 及模型的回归系数(Regression coef
10、ficient, R)为优化模型的参数。 选择最有效的光谱预处理方法,通过留一交叉验证法9,10 ,以预测均方根误差(Root Mean Square Error of Prediction, RMSEP)和预测残差平方和(Predicted Residual Error Sum of Squares, PRESS)为参数,选择最适主因子数。模型的预测能力以模型对预测集样品的预测浓度值与其真实值间的回归系数(Regression coefficient, R)和 RMSEP 来考核,RMSECV、RMSEP 、PRESS 和 R 的计算方法见文献11。3 结果3.1 云芝菌粉蛋白和多糖含量测定
11、的结果 51 个云芝样品的蛋白的测定结果见表 1。表 151 个云芝样品中的蛋白和多糖含量测定结果由表 1 进行统计,51 个云芝菌粉样品蛋白含量的范围为15.153%27.738%,平均含量为 21.576%,51 个云芝菌粉的多糖含量范围为 5.483%20.094%,平均含量为 21.387%。3.2 云芝菌粉的近红外光谱图图 2 为 51 个云芝菌粉在 8002 500 nm 波段的扫描光谱,从图中可以看出在短波近红外区(8001 100 nm)样品吸收较弱,峰数少,在此波段主要是 X-H 的二、三级倍频。在近红外长波区(1 1002500 nm)主要是 X-H 的基频和一级倍频,吸收
12、相对比较强12,峰数多。图 251 个云芝样品的近红外原始图谱图3.3 最优分解尺度和 PLS 模型参数的确定分别以 7 个低频系数矩阵代替原始光谱,对云芝的蛋白和多糖含量进行偏最小二乘留一交互法验证(LOO)。结果如表 2 和表 3 所示。可以看出,当分解层为 6 时,校正模型最好,较使用原始光谱,使用小波包低频系数进行 PLS 建模,蛋白和多糖含量的相关系数(Rv) 分别从 0.340 87,0.351 88 提高到 0.947 42,0.919 62;交互验证均方根误差RMSECV 分别从 0.038 69,0.041 36 减小到 0.012 63,0.016 88。表明使用合适层的小
13、波包低频系数代替原始光谱矩阵参与 PLS 建模,可以去除原始光谱的噪声,从而改善 PLS 建模效果,提高模型的预测能力。表 2 不同尺度提取的信息光谱 PLS 法建立的云芝蛋白定量分析模型参数的比较表 3 不同尺度提取的信息光谱 PLS 法建立的云芝多糖定量分析模型参数的比较3.4 模型检验模型的校正能力是稳定模型很重要的一个方面,同时预测能力在实际应用中是很重要的。使用建好的 PLS 分析模型,分别对预测集 12 个云芝样品进行预测检验,结果见表 2 和表 3 所示。云芝蛋白和多糖含量的预测均方根误差 RMSEP 分别从 0.028 9,0.037 8 减小到 0.010 4,0.010 4;而预测集预测值与真实值的相关系数(Rp) 分别由 0.496 63,0.388 12 提高到 0.958 56,0.974 28。4 结论本文采用正交小波包多尺度变换提取云芝菌粉的近红外光谱信息,并直接利用小波变换的重构信息,分别建立云芝蛋白和多糖含量的定量分析模型, 结果表明该方法中正交小波包多尺度分析对近红外光谱具有较强的去噪和压缩能力,从而使 PLS 模型更具有代表性和稳健性,同时也提高了建模效率和模型的预测精度。预测精度能满足云芝蛋白和多糖定量分析的要求,且方便快捷、无污染、无破坏性,可实现在线检测,对替代原有繁琐的云芝蛋白多糖含量测定方法具有重要的意义。【