1、 基于 LM-BP 神经网络的穿心莲药材分类识别作者:周舒冬 李倚岳 李丽霞 张敏【摘要】 目的建立高效准确的穿心莲样品识别模型,为进行质量控制提供参考。方法收集不同产地的 12 个穿心莲药材样品的指纹图谱,提取 4 个主成分利用 LM-BP 神经网络进行模式识别。结果建立了穿心莲药材指纹图谱的 LM-BP 神经网络模型,经过对不同产地穿心莲的识别,证明其有较好的识别功能。结论 LM-BP 算法在识别速度和精度上都比传统 BP 算法有了较大提高。 【关键词】 LM-BP 神经网络 穿心莲 指纹图谱为了更全面地检测各种成分在药材中分布的全貌,评价药材质量,促进优质中成药的生产,对中药品种的分类识
2、别是一个首要环节1。我国中药材产地多,资源丰富、品种繁多、来源复杂,单凭传统的经验鉴别容易造成失误,而随着计算机技术发展和模式识别算法的提出和改进,利用中药指纹图谱进行中药材鉴定已经取得了长足发展。由于中药指纹图谱含有大量信息,形成一个巨大的多维信息库,且同时存在一些噪声干扰而真伪难辨等,因此如何提高中药指纹图谱的识别效率,获取更多有用的数据信息成为亟待解决的问题。本研究结合 Levenberg-Marquardt 算法与 BP 神经网络技术,提取不同产地批次的穿心莲中药指纹图谱的特征空间信息,利用Matlab7.0 软件编程建立高效准确的穿心莲样品识别系统。1 材料与仪器1.1 样品来源 1
3、2 批穿心莲药材样品由广东省中药研究所提供,经广州华南植物研究所陈炳辉研究员鉴定为穿心莲 Andrographis paniculata(Burmf.)Nees,其中 4 批产自江西,5 批来自广东,福建3 批。1.2 试剂 乙腈(色谱纯),甲酸( 分析纯) ,二次蒸馏水(自制)。1.3 仪器 Agilent 四元泵高效液相色谱仪、 SPD210A 紫外检测器,LC210ATVP 输液泵、UV24802 型紫外可见分光光度计,AR2140 电子分析天平。2 方法2.1 色谱分析条件 Phenomsil ODS 柱( 250 mm 4.6 mm,5 m),0.1%甲酸乙腈(A)与 0.2%甲酸(
4、B)梯度洗脱:020 min(20%A-80%B),2040 min(30%A -70%B),40 55 min(40%A -60%B),5560 min(85%A-15%B)。流速 1.0 ml/min,柱温 25。C, 检测波长254 nm,进样量 10 l,所有组分均在 60 min 内被洗脱。2.2 对照品溶液的制备精密称取穿心莲内酯、脱水穿心莲内酯、新穿心莲内酯和脱氧穿心莲内酯对照品适量,用 50%甲醇配制成1.0 mg/ml 的对照品溶液。2.3 供试品溶液的制备 取各批干燥的穿心莲药材 2.0 g,粉碎,过 40 目,用 20 ml 85%的乙醇回流提取两次,2 h/次,过滤,合
5、并滤液,回收乙醇,滤液浓缩至干,再加 50%甲醇使其充分溶解,置 10ml 量瓶中稀释至刻度,作为供试品溶液。2.4 方法学考察2.4.1 精密度实验取供试品溶液(样品 1),连续进样 6 次,各主要色谱峰的相对保留时间和相对峰面积比值的 RSD 均小于3.0%,表明仪器精密度良好。2.4.2 稳定性实验取供试品溶液(样品 1)分别在0,1,2,4,12,24 h 进样测定,各主要色谱峰的相对保留时间和相对峰面积比值的 RSD 均小于 3.0%,表明样品在 24 h 内稳定。2.4.3 重复性实验取穿心莲药材(样品 1),按“2.3” 项下的方法分别制备供试品溶液 6 份,进样检测,结果各主要
6、色谱峰的相对保留时间和相对峰面积比值的 RSD 均小于 3.0%,表明方法的重复性良好。2.5 模式识别方法2.5.1 模式识别和 BP 神经网络模式识别作为一个研究领域,迅速发展于 20 世纪 60 年代,它是一门以应用数学为理论基础,利用计算机应用技术,解决实际分类及识别问题的学问2。 神经网络是一种模拟人脑功能的成熟的模式识别方法,它借鉴了人脑神经系统处理信息的过程,以数学网络拓扑结构为理论基础,其中 BP 神经网络是迄今为止应用最为广泛的神经网络3。 BP 神经网络是一种有监督的学习算法,它的特点是同一层内的神经元不连接,在整个信号传递过程中不存在任何信号反馈;输入层用于信号分配和传递
7、,不具备运算功能;隐含层和输出层的神经元具有运算功能,可输出最终运算结果。BP 神经网络的学习过程有正向与反向两个过程,在正向传播过程中,输入信息从输入层经过隐含层传向输出层,若不能得到预期输出,则转为反向传播,将信号沿原来的连接通道返回并修改各层节点间的权值,经过反复调试,使得误差信号小于某个阈值或等于 0,此时训练结束。经过训练的网络则可将系统规则、预测能力等隐含在网络中,只需将测试样本输入则可给出处理结果。2.5.2 Levenberg-Marquardt 算法改进的 BP 算法 BP 神经网络的常规算法在实际应用还存在一些需要改进的问题,例如网络学习收敛速度慢,容易陷入局部极小等。而
8、L-M 算法是专门用于误差平方和最小化的方法,它在网络训练速度和识别精度上的具有明显的优势4,因此本研究采用 L-M 算法对标准的 BP 算法进行改进。 设 BP 神经网络的误差指标函数为: E(x)=12Ni=1Yi-Yi2=12Ni=1e2i(x) 其中,Yi 为实际输出向量, Yi为预期的输出向量, ei(x)为误差。 设 xk 表示第 k 次迭代的权值和阈值组成的向量,新的权值和阈值组成的向量 xk+1 表示为: xk+1=xk+x,x= JT(x)J(x)=I -1J(x)e(x) 其中, J(x)为网络训练误差 e(x)的 Jacobian 矩阵, I 为单位矩阵, 0。 L-M算
9、法的流程:给出训练误差允许值 ,常数 和 0,初始化权值和阈值向量 k=0,=0 。计算网络输出及误差指标函数 E(xk)。 计算 Jacobian 矩阵 J(x)。计算x 。如果 E(xk),则转到,否则以 xk+1=xk+x 为权值和阈值向量计算误差指标函数 E(xk+1),若 E(xk+1)E(xk),则令 k=k+1,=/ ,转到;否则令 =,转到。结束。 当 =0 时,L-M 算法即高斯-牛顿法,当 取值很大时,则越接近梯度下降法。在实践中,它具有二阶收敛速度,所需要的迭代次数很少,既具备牛顿法的局部收敛特性,又有梯度下降算法的全局特性。因此,L-M 算法提供了一种快速有效的训练手段
10、,其算法计算复杂度为 O(n3/6) 。2.6 指纹图谱的建立和分析2.6.1 穿心莲的指纹图谱 按照上述方法,分别对 12 批穿心莲药材进行分析,制作了穿心莲药材的 HPLC 指纹图谱,并计算出其穿心莲内酯、脱水穿心莲内酯、新穿心莲内酯和脱氧穿心莲内酯的含量。2.6.2 资料预处理 为消除由于数据变换的幅度和范围以及数据分布的非正态性对结果的影响,先将原始数据进行标准化变换。2.6.3 LM-BP 神经网络结构及训练测试结果本实验所采用的 3层 LM-BP 网络中,输入节点数为 4,即原始数据经特征提取后的 4个主成分,隐含层节点数为 4,输出层有 1 个节点。由于目前仍无系统的关于中间隐层
11、节点数的选取理论,经多次实验比较,最终选取隐层节点数为 4 时效果比较显著。 动量因子和学习速率是影响 BP 神经网络训练速率和收敛度的两个重要因素。如果学习效率和动量因子过大则网络收敛很快,但最后网络发生振荡,失去功能;如果学习效率和动量因子太小则学习速度太慢,网络性能也会受到影响。因此经实验比较选择,本网络的最佳学习率为 0.05,动量因子为 0.6。 由于实验的样品数目较少,故采用交叉验证法进行分类验证,也就是说将标准化变换后的每个样本依次作为待测样本,用剩余的其它样本组成新的训练集建立学习模型,用于预测每个样本的归属。 经过 LM-BP 神经网络的训练,可发现有一个穿心莲样品被识别错误
12、,这份来自江西的样品被鉴别为福建的样品,其他 11 个样品的鉴别结果均正确。从总体来看,使用 LM-BP 网络鉴别穿心莲样品的识别正确率达到了 91.67%,结果见表 1。表 1 LM-BP 神经网络对穿心莲预测样本的预测结果(略)同时实验预先使用传统 BP 神经网络进行训练学习,发现虽然传统 BP 神经网络的鉴别结果与改进的模型结果一致,但从训练的速度进行比较,LM-BP 算法的收敛速度很快,而传统算法的收敛速度则比较缓慢,其误差收敛曲线图如图 1 和图 2。图 1 传统 BP 神经网络的误差收敛曲线(略)图 2 LM-BP 神经网络的误差收敛曲线(略)3 讨论 中药指纹图谱是一种综合的、可
13、量化的鉴定手段5,6,它是建立在中药化学成分系统研究的基础上,它能通过指纹图谱的特征性来有效鉴别样品的真伪或产地,并且能够通过指纹图谱主要特征峰的面积或比例的确定,有效控制产品的质量,确保产品质量的相对一致。但由于受到不同产地及不同采收期的影响,当不同药材样品的指纹图谱非常相似时,不可能用直接观察的方法对各类产区的药材作出准确鉴别,如果使用简单的传统相关系数法,当样品间的相关系数非常大也很难作出鉴定。因此使用神经网络方法可对相似度较高的样品分类鉴定作深入地研究。 本文首先利用穿心莲 HPLC 的指纹图谱资料建立了 LM-BP 神经网络模型,测试时只需将样品的主要图谱数据作为输入,则可输出相应的产地类别,操作简便快捷。由于中药指纹图谱的模糊综合等特性,单纯依靠人工识别容易出现混淆,因此借助人工神经网络技术对中药指纹图谱资料进行分析,充分利用了模糊、非线性的技术特性,可以真实反映中药材的内在质量。 应用基于 L-M 算法的神经网络进行穿心莲药材的识别分类,训练时间比普通的 BP 网络训练时间短,且拟合精度并未降低。本方法克服了传统 BP 网络训练时间长、易陷入局部极小的局限性,在对识别精度和识别速度要求比较高的情况下,采用 L-M 算法改进的 BP 网络可以达到很好的效果,具有一定的实用价值。【