1、基于主成分分析和支持向量机的木材近红外光谱树种识别研究 谭念 孙一丹 王学顺 黄安民 谢冰峰 北京林业大学数学系 中国林业科学研究院木材工业研究所 摘 要: 为了探究一种新型高效的树种鉴别方法, 以桉木、杉木、落叶松、马尾松和樟子松近红外光谱数据为研究对象, 分别建立了基于主成分分析和支持向量机的木材树种定性识别模型。在主成分识别模型中, 样本光谱数据经过预处理后绘制了其二维和三维主成分得分图, 可以看出:主成分分析得分图能有效区分五种木材树种, 且三维得分图比二维得分图更能直观、清晰展示树种之间的差异, 表明主成分分析在可视化层面上可对小样本树种进行有效判别。在支持向量机识别模型中, 分别建
2、立了以遗传算法和粒子群算法为代表的智能算法优化支持向量机树种识别模型, 结果显示, 遗传算法-支持向量机模型的交叉验证最佳判别准确率为 95.71%, 测试集预测准确率为 94.29%, 算法用时 134.08s;粒子群算法-支持向量机模型的交叉验证最佳判别准确率为 94.29%, 测试集预测准确率为 100.00%, 算法用时 19.98s, 表明基于智能算法支持向量机树种识别模型能够实现对木材树种的有效鉴别。该研究对近红外光谱分析技术在木材科学领域的应用进行了有益探索, 为木材树种的快速识别提供了新方法。关键词: 树种识别; 主成分分析; 支持向量机; 遗传算法; 粒子群算法; 作者简介:
3、谭念, 女, 1992 年生, 北京林业大学数学系硕士研究生 e-mail:作者简介:王学顺, e-mail:收稿日期:2015-04-22基金:国家自然科学基金项目 (31670564) 资助Research on Near Infrared Spectrum with Principal Component Analysis and Support Vector Machine for Timber IdentificationTAN Nian SUN Yi-dan WANG Xue-shun HUANG An-min XIE Bing-feng School of Science, Be
4、ijing Forestry University; Research Institute of Wood Industry, Chinese Academy of Forestry; Abstract: In order to explore an efficient method of timber species identification, the near-infrared spectral data of the eucalyptus, the Chinese fir, the larch, the Pinus massoniana and the Pinus sylvestri
5、s were selected as the research object.The qualitative identification model of timber species based on principal component analysis and support vector machine were established respectively.In the principal component analysis identification model, the 2D and 3D principal component analysis scores wer
6、e drawn after preprocessing the sample spectral data.It is found that five kinds of timber species can be distinguished effectively in the principal component analysis score scatter plots, and the 3D principal component analysis score scatter plot shows the difference between the timber species more
7、 intuitively and clearly than the 2 Dprincipal component analysis score scatter plot.It is shown that the principal component analysis can distinguish the small sample timber species at the visual level.In the support vector machine identification model, the methods of genetic algorithm and particle
8、 swarm optimization were selected respectively for parameter optimization.Results showed that, the best discrimination accuracy of cross-validation was 95.71%, and the prediction accuracy rate of test set was 94.29% in the genetic algorithm-support vector machine model, which cost 134.08s.While in t
9、he particle swarm optimization-support vector machine model, the best discrimination accuracy of cross-validation was 94.29%, and the prediction accuracy rate of test set was 100.00%, which cost 19.98s.It indicates that the model based on intelligent algorithm and support vector machine can effectiv
10、ely identify the timber species.This study has made a useful exploration of the application of near infrared spectroscopy in the wood science, and provided a new method for rapid identification of timber species.Keyword: Timber identification; Principal component analysis; Support vector machine; Ge
11、netic algorithm; Particle swarm optimization; Received: 2015-04-22引言近红外光谱分析技术由于其具有绿色、高效、可实时在线分析等特点, 目前已被广泛应用于各个领域的产品质量定性和定量研究1-2。有研究表明, 木材的物质结构信息可以在采集的木材近红外光谱中表现出来3-4, 使得人们开始探索利用近红外光谱分析技术进行木材树种的识别研究5。作为一种间接的分析技术, 近红外光谱分析技术无法直接从光谱信号中解析出有关物质的定性/定量信息, 其应用必须依赖于有效的定性/定量分析模型, 因此寻求有效的建模方法与近红外光谱相结合是近红外光谱分析技
12、术应用在木材树种识别研究中的重点和热点2,6-7。主成分分析 (principal component analysis, PCA) 8是一种数学变换方法, 利用降维的思想, 在损失很少信息的前提下, 把多个指标转化为少数综合指标。为了直观看出样本的分类情况, 可以利用二维和三维主成分得分图来观察样本在空间上的分布。支持向量机 (support vector machine, SVM) 9-11是建立在统计学习理论中结构风险最小化基础上的监督学习模型, 通过对惩罚因子和核函数等参数的选择与优化, 使得即使是由小数据样本建立的判别模型对独立的测试集仍能够产生较小的误差;作为智能算法的典型代表,
13、遗传算法 (genetic algorithm, GA) 和粒子群算法 (particle swarm optimization, PSO) 12-13是将具有生物特征的智能群体有序组织起来, 以特定计算目标为依据所形成的新型智能算法。其中, 遗传算法通过优化、重组群体内部结构的随机搜索算法, 逐步逼近最优解;粒子群算法则通过粒子间的记忆和跟踪功能, 实时调整其搜索策略。近年来, 利用智能算法进行参数寻优已受到学术界的广泛重视。利用智能算法的群体智能、全局优化的策略, 可实现支持向量机模型的参数寻优。利用桉木、杉木、落叶松、马尾松和樟子松五类树种的木材近红外光谱数据, 分别建立基于主成分分析的
14、木材近红外光谱定性判别模型以及基于智能优化算法的支持向量机树种识别模型, 应用近红外光谱技术在木材科学领域进行探索与实践。1 实验部分1.1 样品与数据采集研究所用木材近红外光谱样本共 210 个, 其中桉木、杉木、落叶松、马尾松和樟子松各取 42 个, 样本均取自中国林业科学研究院木材工业研究所。1.2 仪器与样品制备仪器设备:光谱采集设备为美国 ASD 公司 Field Spec 近红外光谱仪, 光谱分析采用 The Unscrambler9.2, 软件运行平台为 Windows 2000。样品制备:实验室的温度为 (221.5) , 湿度为 50%3%。木材样品用光纤探头以频率为 30
15、次s 扫描近红外光谱, 进而利用 ASD 提供的专业软件转换为Unscrambler R 文件, 波长范围:3502 500nm, 得到实验可用的样本光谱数据。1.3 数据处理为了消减样本制备中的人工及环境误差对光谱数据分析的影响, 采取五步指数平滑及二阶导数的处理方法, 消除高频随机噪音、样本不均匀等影响。考虑到光谱图两端的噪音影响度较大, 截取波长在 6002 060nm 范围内的 1 461 个光谱数据进行分析。为了降低计算过程中的数据复杂度, 对数据集进行标准化处理, 映射到0, 1上后进行试验。利用主成分分析法将处理后的 1 461 维的光谱数据压缩到 210 维, 其累计贡献率达到
16、 98.2%, 可以此解释原始光谱数据。2 结果与讨论2.1 基于主成分投影的木材可视化识别为了避免样本量过多导致主成分得分图中五种木材过于密集不易识别, 随机选取落叶松、马尾松、樟子松、桉木和杉木各 10 个样本数据, 利用主成分投影判别法对木材近红外光谱数据进行可视化判别。图 1 为木材样本的二维主成分得分图, 不同木材的样本点在主成分空间中聚集成不同的类别。其中桉木的第一、二主成分得分分别在 48, -40 之间, 处于第四象限;杉木第一、二主成分得分分别在-22, 48 之间, 位于第一、二象限;马尾松第一、二主成分得分分别在-6-2, -40 之间, 处于第三象限;樟子松第一、二主成
17、分得分分别在-42, -24 之间, 在原点附近;落叶松第一、二主成分得分均在-40 之间, 也位于第三象限。结果表明, 二维 PCA 得分图可以把杉木、桉木与三类松树明显的区分开, 而马尾松、落叶松和樟子松样本点相对比较集中, 分辨它们有一定的难度。为了更直观地区分五种木材树种, 把木材样本投影到三维空间中, 得到三维主成分得分图, 从图 2 可以看出, 桉木第一主成分得分在 48 之间, 第二主成分得分在-40 之间, 第三主成分在-11 之间;杉木第一主成分得分在-22 之间, 第二主成分得分在 48 之间, 第三主成分在-42 之间;马尾松第一主成分得分在-6-2 之间, 第二主成分得
18、分在-40 之间, 第三主成分得分在-22 之间;樟子松第一主成分得分在-42 之间, 第二主成分得分在-24 之间, 第三主成分得分在 28 之间;落叶松第一主成分得分在-40 之间, 第二主成分得分在-40 之间, 第三主成分得分在-4-1 之间。结果显示, 三维主成分得分图可以把五种木材明显的区分开, 更直观地展现五类木材的区别, 便于识别。因此, 主成分分析法可以直观、有效地对五类木材树种进行定性识别。图 1 二维主成分得分图 Fig.1 The score chart of 2-dimensional PCA 下载原图图 2 三维主成分得分图 Fig.2 The score char
19、t of 3-dimensional PCA 下载原图2.2 基于遗传算法-支持向量机的木材定量分析模型将经过数据预处理后的全部 210 个样本加上树种标签, 对于每个树种的数据集, 随机选取三分之二的样本量用于训练 SVM 模型的核函数及其参数, 余下的数据样本作为测试集, 用于评估预测模型的可靠性和精确度。图 3 为遗传算法参数寻优过程中适应度值与进化代数的关系曲线。其中遗传算法参数设定:染色体数量为 40, 进化代数上限为 15, 选择概率为 0.8, 交叉概率为 0.8, 变异概率为 0.05, 通过随机遍历抽样的方式寻找支持向量机惩罚因子 C 和核函数参数 g 的最优值, C 的取值
20、范围为0.1, 100, g 的取值范围为0.1, 1 000。结合遗传算法和 5 折交叉验证法, 建立遗传算法-支持向量机树种识别模型。图 3 GA 参数寻优结果 Fig.3 The result of parameters optimization with GA 下载原图结果表明:惩罚因子 C 最优为 97.93, 核函数参数 g 最优为 0.43, 5-CV 检验下的最佳判别准确率为 95.71%, 遗传算法所用时间为 134.08s。通过所求的最优参数 C 和 g 训练支持向量机, 可得支持向量的数目为 29, 测试集的预测准确率为 94.29% (66/70) , 共有 4 个错分
21、, 其中第 1 和 2 类的判别准确率均为 100% (14/14) ;第 3 类的准确率为 92.86% (13/14) , 有 1 个错分, 第 4 类的准确率为 85.71% (12/14) , 有 2 个错分;第 5 类的准确率为 92.86% (13/14) , 有 1个错分, 分类情况如图 4 所示。图 4 GA-SVM 分类结果 Fig.4 The classification result of GA-SVM 下载原图表 1 为利用遗传算法-支持向量机建立树种判别模型 9 次的实验结果, 从表 1 可以看出, 在 5 折交叉验证下的最佳判别准确率可达到 89.29%以上, 测试
22、集准确率达到 94.29%以上;试验表明, 若增加遗传算法的进化代数, 可以使测试集的预测准确率趋于 100%, 模型的判别结果更为稳定, 但模型运行时间较长。2.3 基于粒子群算法-支持向量机的木材定量分析模型图 5 为粒子群算法参数寻优的适应度与进化代数关系曲线。此数据预处理方法与遗传算法模型一致, 通过粒子群算法和样本数据的 5 折交叉验证, 得到支持向量机惩罚因子 C 和核函数参数 g 的最优值。其中粒子群算法的参数设定:种群粒子数为 5, 进化代数上限为 10, 粒子个体的维数为 202, 个体学习能力因子C1=1.5, 全局学习能力因子 C2=1.5, C 的搜索范围为0.1, 1
23、00, 速度限定在-6060, g 的搜索范围为0.003, 1 000, 速度限定在-600600 之间。表 1 GA-SVM 9 次试验分类结果 Table 1 The classification results of Genetic Algorith 下载原表 图 5 PSO 参数寻优结果 Fig.5 The result of parameters optimization with PSO 下载原图图 6 PSO-SVM 分类结果 Fig.6 The classification sesult of PSO-SVM 下载原图结果显示:当惩罚因子 C 为 1.67, 核函数参数 g
24、为 0.003 时, 5-CV 下的模型最佳判别准确率可以达到 94.29%, 粒子群算法所用时间为 19.98s。再利用所求的最优参数 C、g 训练支持向量机, 可得 SVM 的支持向量数目为 39, 测试集判别准确率为 100.00% (70/70) , 没有错分, 如图 6 所示。表 2 PSO-SVM 9 次试验分类结果 Table 2 The classification results of PSO-SVM 下载原表 表 2 为利用粒子群算法-支持向量机建立树种判别模型 9 次的实验结果, 结果表明, 粒子群算法在 5 折交叉验证下的最佳判别准确率均为 94.29%, 所得测试集的
25、预测准确率均为 100%。粒子群算法-支持向量机模型选用较少的粒子数量和迭代次数便可获得很好的效果, 结果较为稳定、且运行时间较短。3 结论以桉木、杉木、落叶松、马尾松和樟子松五个树种的近红外光谱数据作为研究对象, 分别建立了基于主成分分析和基于支持向量机的木材树种定性识别模型。利用主成分投影法绘制二维和三维 PCA 得分图, 样本在主成分空间中聚集成不同的类别, 通过得分图能够较为清晰地确定各样本所属类别, 且三维 PCA 得分图能够更直观地展现出五种木材的不同类别, 便于进行木材树种的识别。分别利用遗传算法与粒子群算法对多分类支持向量机模型进行参数寻优, 以期达到更好的分类效果。结果表明,
26、 遗传算法-支持向量机模型与粒子群算法-支持向量机均适用于对木材树种的识别。遗传算法-支持向量机模型在进化代数较少的情况下结果不够稳定, 且花费时间较长;粒子群算法-支持向量机模型判别效果较好, 测试集的预测准确率较高, 搜索效果较为稳定, 且参数寻优所花费的时间较短。基于主成分分析和支持向量机模型在木材近红外光谱木材树种识别中具有良好的应用前景。参考文献1XU Wen-jie, LIU Ru, HONG Xiang-sheng, et al (徐文杰, 刘茹, 洪响声, 等) .Transactions of the Chinese Society of Agricultural Engin
27、eering (农业工程学报) , 2014, 1 (30) :253-261. 2WEN Tao, ZHENG Li-zhang, GONG Zhong-liang, et al (文韬, 郑立章, 龚中良, 等) .Transactions of the Chinese Society of Agricultural Engineering (农业工程学报) , 2016, 3 (16) :293. 3WANG Xue-shun, SUN Yi-dan, HUANG Min-gao, et al (王学顺, 孙一丹, 黄敏高, 等) .Journal of Northeast Forest
28、ry University (东北林业大学学报) , 2015, 43 (12) :82. 4YU Shi-xing, LI Xue-chun, HUANG An-min, et al (于仕兴, 李学春, 黄安民, 等) .Journal of Northeast Forestry University (东北林业大学学报) , 2013, 41 (2) :123. 5PANG Xiao-yu, YANG Zhong, LBin, et al (庞晓宇, 杨忠, 吕斌, 等) .Spectroscopy and Spectral Analysis (光谱学与光谱分析) , 2016, 36
29、(11) :3552. 6WANG Hai-xia, SUO Tong-chuan, YU He-shui, et al (王海霞, 所同川, 余河水) .China Journal of Chinese Materia Medica, 2016, 41 (19) , 3537. 7Gifty Acquah, Brian Via, Oladiran Fasina, et al.Journal of Near Infrared Spectroscopy, 2015, (2) :93. 8SHI Jianhong, SONG Weixing.Journal of Statistical Plann
30、ing and Inference, 2016, 175:87. 9Chen Peng, Yuan Lifen, He Yigang, et al.Neurocomputing, 2016, (211) :202. 10Wang Xiang, An Kang, Tang Liang, et al.International Journal of Transportation Science and Technology, 2015, 4 (3) :337. 11Liu Yang, Bi Jianwu, Fan Zhiping.Information Sciences, 2017, (394-395) :38. 12Harisankar Bendu, Deepak B B V L, Murugan S.Applied Energy, 2017, (187) :601. 13Jawahar N, Subhaa R.Journal of Manufacturing Systems, 2017, 44 (1) :115.