1、时频域分形维数分析的光谱信号重叠峰解析算法 陶维亮 刘艳 王先培 吴琼水 武汉大学电子信息学院 电网环境保护国家重点实验室中国电力科学研究院 摘 要: 由于光谱谱线存在自然展宽、多普勒展宽、碰撞展宽等, 使混合气体中多种成分的吸收光谱信号出现相邻谱峰重叠现象, 给混合气体组成成分的定性或定量检测带来较大的困难。现有的方法在获取先验知识、处理精度、运算效率等方面存在不足。提出基于时频域分形维数分析的光谱信号重叠峰解析算法, 结合小波的多尺度观测能力和分形的自相似度的度量能力, 识别、定位和解析光谱信号中的重叠峰。首先利用小波对具有重叠谱峰的光谱信号进行光谱频率域和尺度域的分析, 然后对该时频域的
2、光谱信号在同一光谱频率下的多尺度数据进行自相似性度量和分形计算。逐频率计算后得到光谱信号在频率域的分形维数曲线。该曲线体现了光谱信号在不同尺度的自相似性, 其极值位置与光谱信号的各独立峰的位置具有相关性。依据此特性, 结合分形曲线的特征参数, 最后利用神经网络解析出对应混合气体成分的混叠在一起的各个独立谱峰。该方法利用小波的多分辨率特性, 对信号进行不同尺度的精细度量。分形模型则提高了系统解析复杂信号的能力, 对重叠程度高的多谱峰重叠信号也有很强的处理能力。借助人工神经网络, 实现了整个算法的自动测量。通过实验结果分析, 验证了算法的有效性, 并讨论影响算法效果的主要因素。关键词: 分形; 小
3、波; 神经网络; 红外光谱; 吸收光谱; 作者简介:陶维亮, 1979 年生, 武汉大学电子信息学院讲师 e-mail:收稿日期:2017-06-17基金:国家科技支撑计划课题 (2011BAF02B02) 资助Implementation of Overlapping Peak Separation Algorithm for Absorption Spectra by Fractal Dimension Analysis in Time-Frequency DomainTAO Wei-liang LIU Yan WANG Xian-pei WU Qiong-shui School of E
4、lectronic Information, Wuhan University; State Key Laboratory of Power Grid Environmental Protection, China Electric Power Research Institute; Abstract: Because of the natural broadening, Doppler broadening, and collision broadening of spectral lines, multiple adjacent peaks in the absorption spectr
5、um signal of mixed gas with multiple components are often overlapping, which makes the qualitative or quantitative analysis of hybrid gas composition difficult.Existing methods have deficiencies in obtaining aprior knowledge, accuracy, and computational efficiency.An overlapping peak separation algo
6、rithm for absorption spectra is proposed in this paper, which can identify, locate, and parse independent peaks overlapped in the spectral signal by combining the multiscale observation of wavelet and the self-similarity measure of fractal.Firstly, spectral signal with overlapping peaks was transfor
7、med to the time-frequency domain by wavelet, so we can analyze it in light frequency and scale domain.Secondly, the self-similarity of the multi-scale data of the spectral signal at a specified frequency was measured by fractal analysis, which was performed at every frequency in a frequency range of
8、 interest to acquire a fractal dimension curve.The fractal dimension curve reflected the self-similarity of the spectral signal at different scales, and the locations of local extremum of the curve were related to the position of the independent peaks.Finally, according to the fact and the feature p
9、arameters of the fractal dimension curve, independent peaks generated from mixed gas composition were separated from the spectral signal by an artificial neural network.The proposed algorithm in the paper carried on the fine analysis on the spectral signal at different scales using the multiresoluti
10、on characteristic of the wavelet, and improved the analytical ability to parse the independent peaks with a high degree of overlap.The automatic measurement of the entire algorithm was realized using the artificial neural network.The validity of the proposed algorithm was verified by the analysis of
11、 experimental results, and the main factors that affected the algorithm were discussed.Keyword: Fractal; Wavelet; Neural network; Infrared spectrums; Absorption spectrum; Received: 2017-06-17引言光谱测量方法具有高效、快速、环保、选择性好、测量精度高等优点, 应用领域非常广泛, 如在电力行业中电力绝缘气体检测对电力系统安全有重要意义1。红外吸收光谱是由于目标气体对特定频率的光子能量进行吸收而产生的, 根据比
12、尔-朗伯定理, 在理想状态下, 吸收光谱应表现为离散的吸收谱线的组合。显然依据此原理可对混合气体中的衍生物成分进行检测。但在环境温度、气压、仪器噪声、光源的稳定性以及分子在能级的存活时间等因素影响下, 气体成分对光子的吸收不是产生离散的谱线, 而是表现为 Lorentz 线型、Gaussian 线型、Voigt 线型等形式的吸收谱峰。当混合气体中的衍生物成分复杂, 且待检测的组分物理、化学性质非常相似时, 光谱信号混有大量结构相近, 相互重叠的谱峰。在此背景下, 混合气体组成成分的定性或定量检测实现难度非常大。为了提高检测分析混合气体光谱信号的分辨率和准确度, 使其能用于定性和定量分析, 需要
13、分离光谱信号的重叠化学信号峰。重叠谱峰的分离受峰重叠程度、分析方法和用来分离的统计模型等因素的影响, 难以确定分离条件, 因此一直是光谱处理和分析化学中一个长期存在的难题, 对复杂化学信号的分析解析技术, 已成为化学计量学领域中的一个重要课题。1 相关研究进展在光谱分析应用中, 通过使用高性能仪器或优化实验条件, 可以减小展宽谱峰的宽度, 缓解重叠谱峰对检测的不利影响。但这些措施需要较高的成本, 而且只能在一定程度上降低仪器、环境等因素造成的谱线展宽, 并不能从实质上解决重叠谱峰带来的应用限制。借助于信号处理方法来分辨重叠峰是一个重要的研究方向。采用准确、有效、快速的方法来处理重叠峰, 往往能
14、在现有仪器水平的前提下, 大大增强分析检测能力。早期, 对化学信号 (包括光谱、色谱、质谱信号等) 的重叠谱峰一般使用几何和代数解析法进行分离。随着现代信息处理方法的发展, 人们发现分析化学中数据处理与其他技术中的信息处理过程很相似, 完全可以借鉴其数学工具为研究化学信号的重叠峰分析提供新的思路。Fourier 去卷积法在频域中对信号进行去卷积处理, 可以较高的分辨力分辨重叠峰。但它要求预选卷积函数, 在处理过程中可能产生过分峰2。人工神经网络对非线性信号有良好的逼近能力, 不需要较多先验知识, 通过样本能自学习并泛化。因此被广泛地应用于分析化学中, 对重叠峰分离问题的解决, 提供了许多有益的
15、探索3。王雅琳等人提取极谱信号的突变点特征参数作为神经网络的输入, 成功地解析了两重叠峰4。但神经网络结构固定, 无法对组分数未知的重叠信号有效辨析, 多重叠峰组合自然存在病态解, 在不附加其他约束的前提下, 多重叠峰解析成功率较低。基于小波理论在重叠峰解析中的应用也取得了许多进展5-6。范贤光等用小波变换搜索谱峰, 在两个尺度下分析谱信号, 通过信号与噪声在不同分解尺度下的不同形态区分处理, 从而计算得到准确的谱峰信息7。冯飞等对光谱信号的小波低频高频系数区分处理, 利用多尺度特性对光谱脊线进行探测和校正, 得到较好的重叠峰解析效果8。但小波算法对于重叠比较严重的谱峰, 解析误差较大, 且小
16、波基、分解层数等参数的选择还没有规范的理论基础和确定方法。可见, 现有的分析方法对于分离混合气体光谱信号的重叠谱峰来说, 都存在一定的局限性, 不能很好的适应应用需求。由于分形理论对信号的非平稳性和自相似性进行度量的能力, 考虑将其引入混合气体光谱信号重叠峰分离问题。分形模型已广泛地用于许多复杂现象的描述9-10, 但是在重叠峰分辨方面的方法还少见于文献。邱建丁等11用 Holder 指数把信号的小波系数和分形维数联系起来, 用分形维数的峰尖对应信号的波峰和波谷。该处理相对计算量比较小, 在一定程度上可以通过选择合适的尺度来避开噪声干扰。但是, 其分形维数是由某一尺度的小波系数映射得到的, 没
17、有充分利用小波的多分辨率特性, 导致计算结果不够精准。我们提出一种重叠峰分离的小波分形算法, 利用分形理论分析自相似信号的能力, 对小波变换后某波数处不同尺度的数据点进行分形维数计算。这样得出的分形维数曲线体现出信号在此波数上不同尺度的相关特性, 可从中将信号谱峰分辨出来。2 算法实现2.1 将光谱信号转换到小波时频域如前所述, 我们希望对信号进行小波变换, 将信号的细节映射到局部化的小波时频空间, 然后用分形理论来度量信号在不同尺度间的自相似特性, 以此分辨谱峰信息。显然, 在这种应用下, 小波变换系数在尺度间的冗余性对分析是有益的。因此, 采用连续小波变换来分解信号, 这样也能得到更多的尺
18、度信息, 有利于正确估算分形维数。假设光谱信号为 , 其连续小波变换记作 Wf (m, n) , 其中, m 为尺度因子, n 为平移因子, 是伸缩平移后的小波基, 为内积操作。如图 1 所示为某一信号 f (t) 的时域图及其连续小波变换的时频图。图 1 (a) 为重叠峰信号 f (t) , 由两个相邻的独立峰组成的。图 1 (b) 为 f (t) 的连续小波变换, 其横坐标为时移因子, 与光谱信号的波数对应, 纵坐标为信号的尺度因子, 灰度值表示信号在该点的强度。从图中可以清楚看出, 信号的独立谱峰信息在其连续小波时频图上有清晰的表现:独立峰所在的波数位置附近、连续的大尺度上都有小波系数极
19、值出现。但相邻重叠的谱峰在时频图上还未被完全分开, 且由于各尺度上时域分辨率不同, 使得独立峰的准确位置难以从时频图中辨识出来。需采用分形理论对其进行进一步的分析。图 1 重叠峰信号及其时频域图 Fig.1 Overlapping peaks and its time-frequency chart 下载原图2.2 对小波时频域信号进行分形维数计算光谱曲线属于不规则分形结构, 只具有统计意义下的自相似性。研究不同尺度下的小波系数所具有的自相似性, 可以此区分、定位信号谱峰。分形理论中, 对曲线的自相似性一般用分形维数来度量。分形维数也是欧氏几何体与分形相互区分的依据。因此, 在此应用中对混合气
20、体光谱曲线在同一平移因子 n 下, 以连续变化的尺度因子 m 为自变量来计算分形维数。对分形维数有多种计算方法, 如 Hausdorff 维数、容量维数、信息维数等。Hausdorff 维数和容量维数在数学上非常严密, 但在具体应用中通常不太实用, 比如不可能让用于覆盖的正方体的边长 趋于 0。信息维数能够反映待测集合 f 的分布上的不均匀性, 但其计算相对较为复杂。经过分析比较, 决定采用盒维数计算处理光谱小波数据。对信号 f (t) 进行小波变换, 得到小波系数 Wf (m, n) 。根据盒维数计算方法, 对每一平移点 n=ni, 用边长为 j的正方形来处理一维信号 Wf (m, ni)
21、, 把覆盖信号的正方形的最小数目记为 Ni ( j) 。用直线 y=kx+b 对 (x j, yj) 进行拟合, 得到分形维数。具体计算见式 (2) , 令构造误差函数令误差 e 最小, 即 且 , 此时得到的直线斜率可作为分形维数 Df (ni) 由式 (4) , 对每一个平移因子 n 进行上述分形维数的计算, 最后得到分形维数曲线 Df (n) 为2.3 谱峰识别如图 2, 是原始信号及其分形分析后得到的分形维数曲线。其中图 2 (a) 是用两个高斯函数模拟的重叠峰, 两峰的峰位、标准偏差和峰强度分别为 1=50, 1=15, h1=1; 2=80, 2=15, h2=2。对该信号进行如步
22、骤二描述的连续小波变换后, 依据式 (5) 计算其小波系数的分形维数, 得到的分形维数曲线如图 2 (b) , 横坐标为小波变换的时移因子, 与信号的波数轴对应。纵坐标即表示该波数处的信号点在不同尺度的分形维数。图 2 重叠峰信号及其分形维曲线 Fig.2 Overlapping peak signals and its fractal curve 下载原图显然, 原本重叠的谱峰, 在分形曲线上的相应波数位置出现了明显的尖峰, 和原信号的谱峰相比, 分形维数曲线的尖峰的峰位置不变 (尖峰位置 h1=50, h3=80) , 峰宽更窄, 容易分辨。除了重叠峰的两独立峰在分维曲线出现了尖峰外, 对
23、应两峰的峰谷处, 也出现了一个窄峰 (尖峰位置 h2=64) 。经多次实验得出结论, 对于有 K 个单峰的重叠峰信号, 其分形维数曲线会表现出 2 K-1 个尖峰, 这些尖峰交替地指示着独立峰的谱峰和相互重叠形成的波谷。根据这一规律, 可以方便地确定重叠峰信号中单峰的个数和位置。可以使用这些信息进行混合气体成分的定性分析。2.4 独立峰提取通过连续小波分形法获得了分形维数曲线的 2 K-1 个尖峰位置及其强度信息。显然, 这些值与重叠峰中各独立峰是密切相关的。但是, 用模型来揭示其中的联系, 是非常困难的。人工神经网络能够直接从样本中学习其内部复杂的关系, 使网络通过自适应调整参数, 来逼近未
24、知的输入-输出映射。因此, 考虑使用神经网络方法, 使其逼近分维曲线尖峰位置、强度与输出参数 (独立峰宽度和强度) 之间的映射关系。构造多层感知器的神经网络结构, 用输入层、输出层和隐层来构成神经网络系统。输入层为重叠峰信号的特征参数, 输出层为重叠峰信号中需要分离的独立峰的参数 (如独立峰宽度和强度) 。为反映重叠峰信号与待求的参数之间的映射, 作为输入节点的特征参数需要具备代表性, 即能基本反映重叠峰信号的特点。另外, 为提高学习效率, 期望输入节点数目尽量少。由前面连续小波分形计算得到的分维曲线的尖峰点信息符合上述要求, 因此, 将 2 K-1 个分维曲线上的尖峰的峰位和峰宽作为特征参数
25、, 以 K 个独立峰的峰宽和 K 个独立峰的强度作为输出节点。隐层节点的激活函数选为其中, v k表示隐层的第 k 个节点的所有输入信号的加权和, y k表示第 k 个隐层节点的激活输出量。可知, 激活函数为非线性函数, 这使得该神经网络系统具有逼近非线性映射的能力。由于系统输入输出映射关系并不复杂, 对于隐节点数目的选取, 不做复杂的计算来获取, 而是使用多次实验分析得出。经多次实验, 确定隐节点数取为 K 时, 计算误差相对较小。学习方法采用误差反向传播算法。构造误差函数其中, d j为期望值, 为神经网络输出的估计值。K 为独立峰的数目。每输入一次样本, 求出误差函数值, 并将其反向传播
26、, 调整神经网络参数, 直到系统收敛, 此时, 该神经网络系统学习完毕, 并具有泛化能力。对待测混合气体光谱信号, 提取特征参数并送到输入节点后, 即可从输出节点处获得重叠峰的独立谱峰峰宽, 联合连续小波分形法得到的独立谱峰位置, 即可恢复独立谱峰。通过描述的神经网络反向传播算法, 对已提取特征值的重叠峰进行分离操作, 效果如图 3 所示。其中, 图 3 (a) 实线部分为重叠峰信号, 图 3 (b) 为连续小波分形法结合神经网络算法分离的三个独立谱峰, 图 3 (a) 中虚线部分为分离的三个独立谱峰和信号。可见, 对三峰混叠的重叠峰信号, 分离效果比较好, 误差较小。图 3 重叠峰信号及其分
27、形维曲线 Fig.3 Overlapping peak signals and its three independent fractal curves 下载原图3 结果与讨论主要对第 2 节中构造的重叠峰分离的算法模型进行实验检验, 并分析实际光谱信号获取时, 重叠峰的分离度、线型和小波母函数等因素对处理结果的影响。图 4 为利用连续小波分形法结合神经网络算法来分离重叠峰的效果图。其中, 图 4 (a) 为三峰重叠的谱信号, 信号经连续小波变换, 得到图 4 (b) 所示小波系数, 可以看出重叠谱峰在小波空间已经有了较明确的表示, 但仅依据小波变换系数, 难以直接分辨谱峰位置和提取重叠谱信号
28、的特征信息。进一步对小波系数沿着时移因子逐点进行尺度方向的分形维数计算, 得到分维曲线如图 4 (c) 。从分维曲线上辨认, 有五个信号尖峰, 由前面分析知, 第 1, 3 和 5 个尖峰对应重叠峰的三个谱峰, 2 和 4 对应波谷。因此得知, 该信号有三个单峰, 峰位置分别为 1=50, 2=70, 3=100。这些可用于定性分析, 要进一步对其定量分析, 需要将分维曲线的尖峰位置和峰强度输入神经网络节点, 依据误差反向传播算法, 用已知样本集对网络参数进行训练, 得到三峰峰宽和峰强度。由独立峰的峰宽、峰强和分形曲线上确定的峰位置, 最后分离出三个单峰如图 4 (d) 。图 4 小波分形神经
29、网络法重叠峰效果图 Fig.4 Overlapping peaks using wavelet fractal neural network processing method 下载原图3.1 分离度的影响对于不同重叠程度的光谱峰, 算法分离的效果也有所不同。为考察算法的分辨能力, 有必要对不同分离度的重叠峰光谱信号进行分离效果的分析。首先, 给出信号分离度的定义其中, i 和 j 表示重叠谱中的独立峰的序号, i和 j分别表示第 i 和 j 号独立峰的峰位置, w i和 wj表示第 i 和 j 号独立峰的峰宽。对于高斯信号, 有其中, i和 j是高斯函数的标准偏差。可知, R 值越大, 表示
30、两独立峰重叠的程度越小;相反, 表示两峰重叠程度越大。我们提出的算法在给出重叠信号的特征值后, 神经网络过程可以自适应的逼近输入输出的映射关系, 其逼近的精度与信号具体的特征值大小关系不大。因此可以认为, 分离度对算法性能的影响, 主要表现为利用分形维数曲线提取重叠峰信息的精度。图 5 为不同分离度的重叠峰信号经小波变换和分形计算后, 得到的分维曲线。可以看出, 当分离度 R0.3 时, 尽管信号重叠比较严重, 分维曲线与重叠信号中各独立峰的特征对应得比较好, 而且, 确定峰位的精确度也随分离度变大而变大。当分离度 R0.3 时, 分维曲线的尖峰已不能准确的被定位出来, 不能提取到足够的特征值
31、。后续的算法也就不能得到分离的独立峰了。图 5 不同分离度的重叠峰信号及其分形维曲线 (a) :R=0.2; (b) :R=0.3; (c) :R=0.4; (d) :R=0.5Fig.5 Overlapping peaks of different resolution and its fractal curve 下载原图(a) :R=0.2; (b) :R=0.3; (c) :R=0.4; (d) :R=0.53.2 小波母函数的影响在用分维曲线来辨析重叠峰位置之前, 对信号进行了连续小波变换, 将其变换到了时频域。在变换操作中, 小波母函数的选取, 决定了时频域信号的分辨率, 从而也必将
32、影响后面定峰位的精度。图 6 不同小波母函数分析分离度的信号的分形维曲线 (a) :重叠峰信号; (b) :Haar; (c) :db2; (d) :sym3; (e) :coif3; (f) :bior2.4Fig.6 Overlapping peaks of different mother wavelet resolutions and its fractal curves 下载原图(a) :Overlapping peaks signal; (b) :Haar; (c) :db2; (d) :sym3; (e) :coif3; (f) :bior2.4因此, 对小波母函数对峰位的确定精
33、度的影响进行实验分析, 以确定合适的小波母函数。我们分别采用 Haar 小波、Daubechies 小波、SymletsA 小波, Coiflet 小波, Biorthogonal 小波等多种小波基来处理光谱信号, 如图 6 所示为不同的小波基处理两个独立峰构成的分离度的重叠光谱信号的分形维数曲线图。显然, 使用Haar 小波的处理效果最佳, 而其他小波基本无法辨认出严重重叠信号的分维曲线中的个特征峰尖, 可见, 小波母函数的选择对于算法的精度是非常重要的。4 结论对混合气体的组分检测方法开展研究, 提出光谱信号的时频域分形维数分析算法。该算法利用小波分析的多尺度特性和分形计算的自相似性探测来定位和分离重叠峰, 能够在时域和频域都足够精细的观察和分析, 最终通过神经网络解析出混合气体红外吸收光谱重叠峰中独立峰的位置和强度。实验证明算法有效。但如前分析可知, 在不同的应用场景, 还是需要通过对目标气体的特征研究, 来帮助确定算法参数, 如小波母函数等。如何提高算法的自适应能力, 是我们正在研究的方向。参考文献