1、PRINTING AND DIGITAL MEDIA TECHNOLOGY STUDY Tol.223 No.2 2023.04印刷与数字媒体技术研究 2023年第2期(总第223期)RESEARCH PAPERS研究论文基于K-means聚类改进的光谱降维方法付 玉1,万晓霞1*,刘志宏2*,刘 段1,邢海峰3(1.武汉大学 图像传播与印刷包装研究中心,武汉 430079;2.深圳职业技术学院 传播工程学院,深圳 518055;3.湖北广彩印刷有限公司,随州 432721)摘要 光谱降维是解决光谱数据高冗余度问题的重要方式,针对光谱降维中常用的主成分分析法(PCA)在主成分个数较少时重构数据
2、与原始数据误差较大的缺点,本研究提出了一种基于预先聚类减少光谱数据降维压缩后信息损失的方法。首先用K-means算法分别在光谱空间和颜色空间将光谱数据聚类,然后对每子类利用PCA法进行降维并重构。结果表明,相比于非聚类的整体降维,本研究改进方法的重构数据在光谱精度和色度精度方面均提升明显,在仅3个主成分的前提下即可获得较高的重构精度,并且光谱空间中的聚类结果优于颜色空间聚类。实验证明,对光谱数据的预先聚类处理对光谱数据的高保真降维压缩具有重要作用。关键词 光谱学;聚类;主成分分析;光谱降维 中图分类号 TP391 文献标识码 A 文章编号 2097-2474(2023)02-22-09DOI
3、10.19370/10-1886/ts.2023.02.003Improved Spectral Dimension Reduction Method Based on K-means ClusteringFU Y u1,WAN Xiao-xia1*,LIU Zhi-hong2*,LIU Duan1,XING Hai-feng3(1.Research Center of Image Communication and Printing and Packaging,Wuhan University,Wuhan 430079,China;2.School of Communication,Shen
4、zhen Polytechnic,Shenzhen 518055,China;3.Hubei Guangcai Printing Co.,Ltd,Suizhou 432721,China)Abstract Spectral dimension reduction is an important way to solve the problem of high redundancy of spectral data.Aiming at the disadvantage of PCA that the reconstructed data has errors from the original
5、data when the number of principal components is small,a method based on clustering pretreatment to reduce the information loss after dimension reduction compression of spectral data was proposed in this study.First,K-means algorithm was used to cluster spectral data in spectral space and chromaticit
6、y space respectively,and then the PCA method was used to reduce dimensions and reconstruct each subcategory data.The results showed that compared with the overall dimension reduction of non clustering,the reconstructed data based on the improved clustering method had signicantly improved in spectral
7、 accuracy and chromaticity accuracy.With only three principal components,higher reconstruction accuracy could be obtained,and the clustering results in the spectral space were better than those in the 收稿日期:2022-10-12 修回日期:2022-11-28*为通讯作者本文引用格式:付玉,万晓霞,刘志宏,等.基于K-means聚类改进的光谱降维方法J.印刷与数字媒体技术研究,2023,(2)
8、:22-30,49.2023年2期印刷与数字媒体技术研究(正文拼版)2023-3-22.indd 22 2023年2期印刷与数字媒体技术研究(正文拼版)2023-3-22.indd 22 2023/3/27 16:05:31 2023/3/27 16:05:3123研究论文 付 玉等:基于K-means聚类改进的光谱降维方法0 引言颜色的测量和表征主要有两种形式,一种是低维的颜色空间,如CIEXYZ和CIELAB等颜色空间,这类压缩的颜色信息利于颜色的计算和传播,但是因信息有限,无法应用于对颜色复制保真度要求较高的场景。另一种是高维的光谱反射率,光谱反射率是物体表面的“指纹”,既反映了物体表面
9、材质,也较全面地记录了物体表面的颜色信息。光谱反射率凭借其高维度详细的信息可以大幅降低颜色在传播复制中颜色信息的损失,极大地提高了颜色保真度1-4。但是高维的光谱数据也存在信息冗余和存储空间量巨大的缺点,另外高维数据的计算处理和分析过程复杂且耗时,不利于颜色复制的便捷性。因此,将高维的光谱数据进行降维映射,用低维的特征表示原始数据的同时尽可能地保留原始信息,是光谱数据压缩的必要方式,也对光谱颜色的高效和高保真复制具有重要意义5-8。目前常用的高光谱数据降维方法分为线性和非线性两种。线性方法主要有主成分分析法(PCA)、独立成分分析法(ICA)及其相应改进算法,其中PCA法应用最广9-11。PC
10、A法利用线性变换将原始数据投影到互不相关的低维特征空间,并利用特征向量的线性组合表示原数据。PCA法提取了原始数据的主要信息,然而其在主成分个数较少时重构精度不高,提高精度的方法是增加主成分个数,但同时增加了数据量。另有一些针对光谱数据特点和颜色空间提出的非线性降维方法,如Rosen等12-13提出的LabPQR模型,该模型仅在指定光源条件下提高了色度重构精度,变换光源时色差较大,即光源稳定性较差;相关学者受此启发,提出了改进的如LabRGB14、XYZLMS15和LabLab16模型,然而这些模型的降维结果都固定为6维且降维后两组三刺激值之间的相关性较大,增加了数据冗余度,并且这些模型仍然摆
11、脱不了对特定光源的依赖。Liang等17-19提出了一种基于人眼视觉感知特性的光谱降维方法,解决了变换场景的色差稳定性问题,但是计算过程较为烦琐。基于现有光谱数据降维方法的不足,本研究提出了一种基于预先聚类的高光谱数据降维方法。该方法根据光谱数据之间的相似性预先将样本聚类,然后将每一类数据利用PCA完成了从高维映射到低维特征空间的压缩,聚类后重构的数据在光谱精度、色度精度都获得了较大的提升且稳定性良好。1 光谱降维方法本研究在将光谱样本集聚类划分为子类时选择了K-means聚类算法,并且聚类过程从两个不同的空间进行,一是原始的光谱反射率向量空间,二是用光谱反射率转换得到的CIELAB颜色空间,
12、分别对应着本研究提出的光谱空间聚类的SC-PCA方法和颜色空间聚类的CC-PCA方法。1.1 K-means聚类K-means聚类算法是一种典型的无监督学习算法。对于给定样本集,其根据样本间距离大小将样本集划分为K个簇,在簇内各样本的距离尽量小且簇间样本的距离尽可能大的约束条件下,迭代的求解K个簇的簇心并把每个样本归于距离其最近的簇心。K-means算法的具体步骤如下。1)在样本集中随机K个样本作为K个簇的初始中心。2)计算各个样本点到各聚类中心的距离,并将其归于距离最近的簇。3)更新各个簇的中心向量。4)判断各个簇心是否变化,如变化则转到步骤2),否则停止算法并输出聚类中心。chromati
13、city space.The experiment proved that the clustering pretreatment of spectral data plays an important role in the high delity dimension reduction compression of spectral data.Key words Spectroscopy;Clustering;PCA;Spectral dimension reduction2023年2期印刷与数字媒体技术研究(正文拼版)2023-3-22.indd 23 2023年2期印刷与数字媒体技术研
14、究(正文拼版)2023-3-22.indd 23 2023/3/27 16:05:31 2023/3/27 16:05:3124印刷与数字媒体技术研究 2023年第2期(总第223期)机器学习中样本间距离计算方式有多种,本研究根据光谱数据的特点在光谱空间和颜色空间聚类时分别选取了初始光谱反射率向量的相关距离和转到CIELAB颜色空间的欧式距离。相关距离基于皮尔森相关系数,反映了变量间的相似程度,假设两样本的初始光谱反射率向量分别用x和y表示,则其相关距离Dx,y的计算方法如公式(1)。(1)其中,Cov(x,y)表示x和y之间的协方差,D(x)和D(y)分别表示x和y的方差。CIELAB颜色空
15、间的欧式距离即为CIE1976色差,其计算方式如公式(2)。(2)其中,、分别为光谱样本在CIELAB颜色空间上的差值。1.2 PCA降维和数据重构PCA法是一种典型的用于高维数据降维的统计方法,利用正交变换将原始变量重新组合成一组新的综合变量,这些两两之间相互独立的新变量即为主成分。实际计算时会依据需要取前几个主成分,利用这些主成分的线性组合表示原始数据且尽可能地反映保留原始数据的信息,完成数据的降维压缩。利用降维后的信息求原始数据的近似解的过程即为数据重构。1.2.1 PCA降维假设原始光谱颜色数据集包含n个样本,每个样本的光谱维度为p,则原始光谱数据可以用np的矩阵R表示。对于原始光谱矩
16、阵R的PCA降维计算过程如下。1)数据去中心化,即数据集减去各个维度上的均值。2)计算R的协方差矩阵C=RTR/n。3)求协方差矩阵的特征值和特征向量,并将特征值按照降序排序。4)计算排序后各特征值的累计贡献率,计算方式如公式(3)。(3)其中,表示排序后的特征值,k表示第k个特征值,s为特征值总数。实际计算中会根据累计贡献率的阈值选择需要保留的对应特征向量个数即主成分个数,假设选定的主成分个数为m。5)将原始数据投影到保留的m个特征向量组成的新的特征空间中,实现数据的降维压缩。线性投影过程如公式(4)。R=RM(4)其中,M表示m个特征向量组成的矩阵,R表示原数据在低维空间中的投影值。1.2
17、.2 数据重构由特征向量组成的转换矩阵可以将降维后的数据重构,由于PCA降维的第一步进行的数据去中心化,因此转换后需要加上原始光谱数据的均值。数据重构的计算方式如公式(5)。=RMT+mean(R)(5)其中,T表示矩阵转置;mean(R)表示原始光谱反射率矩阵各列均值;表示重构的光谱反射率矩阵。1.3 评价指标降维方法的目的是利用低维度减少信息冗余的同时保留更多原始数据的信息,因此需要计算降维重构数据与原始数据之间的误差来表示降维方法的优劣。对于光谱数据来说,通常从光谱精度和色度精度两个方面对降维效果作评价。光谱精度采用均方根误差(RMSE)和拟合度系数(GFC)评价指标。其中,RMSE反映了重构数据和原数据之间的整体误差,GFC反映了重构光谱反射率和原始光谱反射率之间的拟合程度。计算方法如公式(6)、公式(7)。(6)(7)其中,和 分别为第i个样本的原始光谱反射率和重构的光谱反射率向量;为光谱的波长;n为数据集中样本的总数。色度精度评价标准采用符合人眼感知的CIEDE2000色差公式。E00的计算方法如公式(8)。2023年2期印刷与数字媒体技术研究(正文拼版)2023-3-22.indd 24 2023年2期印刷与数字媒体技术研究(正文拼版)2023-3-22.indd 24 2023/3/27 16:05:32 2023/3/27 16:05:32