收藏 分享(赏)

基于ARMA模型的心电聚类算法.pdf

上传人:精品资料 文档编号:9089483 上传时间:2019-07-23 格式:PDF 页数:6 大小:435.35KB
下载 相关 举报
基于ARMA模型的心电聚类算法.pdf_第1页
第1页 / 共6页
基于ARMA模型的心电聚类算法.pdf_第2页
第2页 / 共6页
基于ARMA模型的心电聚类算法.pdf_第3页
第3页 / 共6页
基于ARMA模型的心电聚类算法.pdf_第4页
第4页 / 共6页
基于ARMA模型的心电聚类算法.pdf_第5页
第5页 / 共6页
点击查看更多>>
资源描述

1、31 卷 6 期2012 年 12 月中 国 生 物 医 学 工 程 学 报Chinese Journal of Biomedical EngineeringVol 31 No 6December 2012doi: 10 3969 /j issn 0258-8021 2012 06 003收稿日期 : 2012-06-10, 录用日期 : 2012-09-23基金项目 : 国家自然科学基金 ( 70801025)* 通信作者 。 E-mail: maoxm2010 126 com基于 ARMA 模型的心电聚类算法毛雪岷*张婷婷 蔡传晰 李 琼( 合肥工业大学管理学院 , 合肥 230009)摘

2、 要 : 对心电信号 ( ECG) 这种高维的时间序列进行聚类 , 最重要的方面之一即进行特征提取 。本研究提出利用自回归和移动平均 ( ARMA) 模型拟合 ECG 信号 , 以拟合系数的欧氏距离为结构不相似测度征进行聚类 。但此方法没有考虑样本数据的各维特征对聚类的不同贡献率 , 所以本文提出可以把首次聚类每维特征在聚类中的贡献率作为其权值 , 对每维数据加权后重新进行聚类 。以 MIT-BIH 标准数据库中的正常窦性心率 ( NSR) 和心室早期收缩( PVC) 样本数据进行聚类分析 , 结果表明利用改进后的方法进行聚类的准确度达到 93. 10% , 从而证明了所提方法的有效性 。关键

3、词 : 聚类 ; ARMA 模型 ; 特征提取 ; 权重确定 ; ECG 信号中图分类号 TP18 文献标志码 A 文章编号 0258-8021( 2012) 06-0816-006ECG Clustering Algorithm Based on ARMAMAO Xue-Min*ZHANG Ting-Ting CAI Chuan-Xi LI Qiong( College of Management, Hefei University of Technology, Hefei, Anhui Province 230009, China)Abstract: Feature extraction

4、was one of the important parts in electrocardiogram ( ECG) clustering In thisarticle, a simple autoregressive-moving average ( ARMA) was applied to fit the ECG we used the fittingcoefficients Euclidean Distance as dissimilarity to cluster ECG However contribution of each dimension featureof data sam

5、ple to the clustering was not considered in that algorithm Therefore, we further took the contributionwhich was obtained by the firstly clustering as the weight of each dimension feature After each dimensioncoefficient was weighted, we clustered these data again The PVC and NSR data obtained from MI

6、T-BIHArrhythmia Database, was used for experimentation The results showed that cluster precision reached to93. 10% , which proved effectiveness of the proposed methodKey words: clustering; auto-regressive and moving average ( ARMA ) model; feature extraction; weightdefinition; electrocardiogram ( EC

7、G)引言心电信号 ( ECG) 是从人体表面记录心肌细胞电活动的情况 , 它携带了很多反映心脏工作状况的信息 。在实践过程中 , 医生从正常的 ECG 信号中找出心律失常信号是诊断心脏病变的常规检测手段之一 1。随着数据库知识发现和模式识别等计算机技术的发展 2, 心电图的诊断逐渐从人工识别转变为计算机自动识别 , 至今已有多种算法用于心电图自动分类 3。通过聚类法从 ECG 信号中找出心律失常的方法运用广泛 , 但是直接在原始的 ECG 序列上进行聚类不仅难度大 , 而且还会影响算法的准确性和可靠性 4。利用相应的方法对 ECG 信号序列进行特征提取 , 把 ECG 信号变换到低维空间 ,

8、这样更有利于提高聚类结果的准确性 。最常用的是根据 ECG 的波形进行特征提取 , 心电信号的 QRS 宽度和 RR 周期是描述心拍的两个最基本的特征量 , 彭良瑞等 5在单片机实时系统上6 期 毛雪岷 , 等 : 基于 ARMA 模型的心电聚类算法利用 QRS 波宽度 , 结合 RR 间期的参数变化检测室性心律失常 ; Trahanias 等 6选取了代表 ECG 波形的四类基元 ( 正向负向波峰 、直线段和曲线段 ) , 并定义了相关属性字符串 , 采用串文法来描述心电波形 。但是这种方法大都仅针对一个心电周期内重要特征波段而言的 , 不能反映病症的综合特征和全貌 , 提取的特征因此受到限

9、制 7。许多学者也尝试着把一些方法运用到心电信号的特征提取中 , 如 : 隐马尔科夫模型 8、傅里叶变换法 9、神经网络 10、小波变换 11, 这些算法都有着计算复杂度高 、实现困难的问题 。同时 , 隐马尔可夫模型以及神经网络模型的泛化能力还需要大量临床数据的进一步验证 , 目前 ,仍处于理论研究阶段 4。本研究利用一种较简单的特征提取方法 , 即若时间序列符合一定的分布特征 , 则可以用 ARMA 模型拟合 , 利用拟合的参数估计为特征 , 以它们的欧氏距离为结构不相似测度进行聚类 。但是直接利用这些系数聚类不符合实际的要求 , 需要对每维特征加以一定的权重 。本文提出以每维特征在首次聚

10、类中的贡献率作为权重 , 与原来相应的系数相乘得到一个新的系数向量 , 然后以新系数向量的欧氏距离作为结构不相似测度再聚类 。利用此方法对心电信号( ECG) 聚类诊断心律失常 , 得到良好的聚类结果 ,对实践有一定的指导意义 。1 方法介绍1. 1 基于 ARMA 模型的聚类方法1. 1. 1 ARMA 模型介绍对于平稳时间序列的建模 , 研究人员提出了“参数化 ”模型 , 该模型是根据时间序列的观测值Xt, t = 0, 1 , 构 造 一 个 带 有 参 数 的 数 学 模型 , 使这种 “参数化 ”模型能反映产生时间序列 Xt的动态系统的规律性 , 为预报 、控制特征提取提供依据 。一

11、般来说 , 一个变量的现在取值 , 不仅受其本身过去值的影响 , 而且也受现在和过去各种随机因素冲击的影响 。因此 , 可建立其数据生成模型为 :Xt 1Xt1 pXtp=t 1t1 qtq, ( 1)式中 , j( 1 j p) 和 j( 1 j q) 为实数 , t为白噪声过程 , 即 t WN( 0, 2) 。式 ( 1) 称为 p 阶自回归 q 阶移动平均模型 , 记为 ARMA ( p, q) 模型 。当 q = 0 时 , 式 ( 1) 称 为 p 阶 自 回 归 模 型 , 记 为AR ( p) 模型 , 当 p = 0, q 阶移动平均模型记为MA( q) 模型 。1. 1.

12、2 相似度定义每个时间序列经过 ARMA 模型的拟合之后 , 会得到一组系数向量数据 , 利用系数向量之间的欧氏距离来表示时间序列之间的相似度 。作如下定义 :定义 1 令 Xt和 Yt均服从零均值 ARMA ( p, q)模型 , 它们的系数向量分别为 X和 Y, 则其系数向量构成的欧式距离为d =Nk = 1( Xk Yk)槡2( 2)d 可作为两个 ARMA 模型 Xt和 Yt之间的结构不相似测度 。距离 d 是一种很好的定义测度 , 满足距离空间的性质 。如果系数向量的维数不同 , 可采用动态时间弯曲距离定义两个 ARMA 模型的距离测度 。对时间 序 列 Xt和 Yt通过模型识别后

13、, 可 用ARMA 模型进行拟合 。假设拟合模型的参数向量分别为 X和 Y, 由上述方法可定义两个时间序列的距离测度 , 进而可采用 K 均值和模糊 C 均值 、密度聚类法 、最长距离聚类法 、最短距离聚类法 、最大似然聚类法等方法对时间序列数据进行聚类分析 。1. 2 改进的基于 ARMA 模型的聚类方法在运用以上方法进行聚类的过程中 , 直接利用拟合 ARMA 模型系数的欧氏距离作为相似度测度 ,就会存在一个问题 : 每个系数在距离测度中的贡献率是相同的 , 但是在实际聚类的过程中每维特征的贡献率是不同的 。所以 , 本研究提出一种新的相似度测度方式 , 在每个向量的系数上加一个权重 ,

14、关键就是权重的确定 。此方法包括 5 个步骤 。步骤 1: 利用 ARMA 模型进行模型拟合 , 时间序列就会用一组系数向量表示 。即 : 时间序列 Xt和 Yt拟合模型的参数向量分别为 X和 Y。步骤 2: 对系数向量进行标准化处理 , 然后以它们的欧氏距离作为相似度测量 , 用相应的方法聚类得到一个结果 。同时 , 也会从结果中得到每位数据在聚类的过程中的贡献率为 : ( 1、2、n) , n 为拟合模型后系数的个数 。步骤 3: 找到累积贡献率达到一定比例的前 m个系数的贡献率 ( 1、2、m) , 以此计算这 m 个系数的权重 ( 1、2、m) , i 表示第 i 个系数i=imi =

15、 1i( 3)步骤 4: 把拟合模型参数向量的每维系数与相应的权重 i相乘 , 重新得到一个系数向量 , 则表示时间序列 Xt的参数向量变为为 x。718中 国 生 物 医 学 工 程 学 报 31 卷步骤 5: 把新得到的系数向量进行标准化处理 ,以它们的欧氏距离为相似度测量 , 利用相应的聚类方法重新进行聚类 , 最终得到聚类结果 。2 ECG 时间信号聚类2. 1 ECG 信号对 ECG 进行聚类是找出心律失常的重要手段 。传统人工分析方法的诊断结果容易带有主观性成分 , 更重要的是面对成千上万个心拍和节律信息 , 完全依赖于人工诊断分析几乎不可能 , 也很容易造成错检或漏检 。利用计算

16、机对 ECG 信号进行自动分析 , 可以减轻工作负担 , 大大提高心律失常诊断的功能和精度 。但是由于 ECG 信号本身具有的特点 , 没有一种算法可以完全适用于 ECG 的聚类 , 不断提高ECG 的聚类效果成为研究热点 。图 1 正常窦性心律 ECG 信号的 SACF 和 SPACF 图 。( a) MLII 的自相关图 ; ( b) MLII 的偏自相关图 ; ( c) V1 的自相关图 ;( d) V1 的偏自相关图Fig 1 The SACF and SPACF diagram of NSR ECG ( a) MLII SACF; ( b) MLII SPACF; ( c) V1 S

17、ACF; ( d) SPACF数据 来 源 于 MIT-BIH 数 据 库 的 ECG 信 号 。NSR ( normal sinus rhythm, http: / /www physionetorg/physiobank/database/nsrdb/) 、PVC ( prematureventricular contraction, http: / /www physionet org/physiobank/database/mitdb/) , 其信号的采样频率均为 360 Hz。其中 , NSR 信号数据包括 18 个样本 , 5名男性 , 年龄 26 至 45 岁 , 13 名女性

18、, 年龄 20 至 50岁 。PVC 信号数据包括 25 名男性 , 年龄 32 至 89岁 , 22 名女性 , 年龄 32 至 89 岁 , 其中有两个数据来自同一名男性患者 , 由于 PVC 信号数据库中两个ECG 信号指标不统一 。为此 , 我们仅选择了 XLII 信号和 V1 信号的病患者的数据 , 共 40 个样本 。在MIT-BIH 数据库信号数据中 , 最高信号量是 MLII,其由电极放入胸部获得的 ; 最低信号量通常是 V1( 偶尔是 V2 或 V5) , 其也是由电极放入胸部获得的 。不同种类的 ECG 信号有着不同的心跳率和 RR周期 。通常情况下 NSR 信号 , 其心

19、跳率为 60 100次 /min。而 PVC 的 RR 间期比 NSR 的 RR 间期短 ,采用 3 000 个采样点的数据 , 已经包括了几个周期的 ECG 信号信息 。2. 2 ECG 信号的特征分析从 ECG 的 信 号 序 列 图 看 出 正 常 窦 性 心 律( NSR) 和心室早期收缩 ( PVC) 二者具有显著性差异 , 利用时间序列样本的自相关函数和偏自相关( 即两个要素同时消除了其余要素影响后的相关 )函数 法 对 两 种 不 同 的 ECG 信 号 序 列 进 行 特 征分析 。图 1 为正常窦性心律 ( NRS) 的 ECG 信号的样本自 相 关 函 数 ( SACF)

20、和 样 本 偏 自 相 关 函 数( SPACF) 图 。图 ( a) 、( b) 分别为 MLII 信号的 SACF和 SPACF 图 , 图 ( c) 、( d) 分别为 V1 信号的 SACF和 SPACF 图 , 从图可见 MLII 信号序列和 V1 信号序列均具有高度的自相关性 。图 2 为心室早期收缩 ( PVC) 患者的 ECG 信号的样本自相关函数和样本偏自相关函数图 , 得到其8186 期 毛雪岷 , 等 : 基于 ARMA 模型的心电聚类算法图 2 心室早期收缩 ECG 信号的 SACF 和 SPACF 图 。( a) MLII 的自相关图 ; ( b) MLII 的偏自相

21、关图 ; ( c) V1 的自相关图 ; ( d) V1 的偏自相关图Fig 2 The SACF and SPACF diagram of PVC ECG ( a) MLII SACF; ( b) MLII SPACF; ( c) V1 SACF; ( d) SPACFMLII 信号序列和 V1 信号序列也具有高度的自相关性 。统计 结 果 表 明 ECG 信 号 序 列 均 适 合 采 用ARMA 模型进行拟合 。2. 3 利用 ARMA 模型进行特征提取后聚类2. 3. 1 将时间序列拟合 ARMA 模型将 NSR 和 PVC 信号用于 ARMA 建模 , 引用了现有文献的方法和准则对包

22、括 PVC 和 NSR 在内的每段心电信号进行 ARMA 建模 。实验结果表明 ,AR 过程和 MA 过程分别在 P4 和 Q2 时 , 信噪比随阶次的增加基本保持不变 。在允许的范围内尽量减少计算的复杂度 , 选择 P 和 Q 分别为 4 和 2。在 P =4 和 Q = 2 时 , 各段 ECG 自相关系数 0. 99,这表明实际信号和仿真信号有着极强的相关性 12。在本文中 , 我们选取 58 个测试样本的 MLII 信号和V1 信号序列进行 ARMA( 4, 2) 拟合 , 利用 ARMA 的系数作为 ECG 信号的特征 , 则每一个样本可得 12个特征值 , 前 6 个特征值是 EC

23、G 的 XLII 信号拟合ARMA 模型的参数估计结果 , 后 6 个特征值是 V1信号序列拟合 ARMA 模型的参数估计结果 。测试集一共有 58 个样本 , 前 18 个样品来自正常组 ( 正常窦性心律 , NSR) , 后 40 个样品来自非正常组 ( 心室早期收缩 , PVC) 。2. 3. 2 ECG 信号的聚类分析对每个样品来说 , MLII 和 V1 的 ARMA( 4, 2) 模型的参数的个数为 12 个 , 也就是对应的每个样本含有 12 个指标 , 下面利用离差平方和聚类法对这些样品进行聚类分析 。从表 1 的输出结果来看 , 各个指标变量之间的相关 性 较 高 。前 3

24、个 主 分 量 的 累 计 贡 献 率 已 达81. 61% , 先利用主成分分析对 ARMA( 4, 2) 模型的系数降维 , 再利用离差平方和法进行聚类分析 。聚类的结果显示可聚为两类 , 有 23 个不正常的样本表 1 ECG 信号的聚类分析结果Tab 1 The result of clustering ECG参数 特征值相邻特征值之差各特征值占总方差的百分比累计百分比1 5. 950 3. 776 49. 59 49. 592 2. 175 0. 507 18. 12 67. 713 1. 668 0. 852 13. 90 81. 614 0. 816 0. 073 6. 80 8

25、8. 415 0. 743 0. 743 6. 19 94. 606 0. 302 0. 158 2. 52 97. 127 0. 144 0. 025 1. 20 98. 318 0. 118 0. 054 0. 99 99. 309 0. 064 0. 047 0. 54 99. 8410 0. 017 0. 015 0. 14 99. 9811 0. 002 0. 002 0. 02 10012 0. 000 2 0. 00 100注 : 上面的数据已经过标准化处理 , 处理后平均值为 0, 方差为 1, 总样本标准差 = 1, 观察数据间的均方根距离 = 4918中 国 生 物 医 学

26、 工 程 学 报 31 卷( 第 1 个字母为 A) 与 18 个正常的样本 ( 第 1 个字母为 N) 归为一类 , 而另外 17 个不正常的样本自成一类 , 显然这种聚类错误率太高 , 说明直接利用 ECG信号拟合 ARMA( 4, 2) 模型估计的参数作为特征进行聚类效果不是很好 , 需要对此方法进行相应的改进 。2. 4 利用改进后的方法重新聚类由表 1 的输出结果可以看出 , 前 6 个主分量的类计贡献率已经达到 97. 12% , 所以选取前 6 个系数作为重新聚类的特征 , 计算出每个系数的权重分别为1= 0. 495 9 /0. 971 2 = 0. 510 62= 0. 18

27、1 2 /0. 971 2 = 0. 186 63= 0. 139 0 /0. 971 2 = 0. 143 14= 0. 068 0 /0. 971 2 = 0. 070 05= 0. 061 9 /0. 971 2 = 0. 063 76= 0. 025 2 /0. 971 2 = 0. 025 9对测试集每维特征的前 6 个系数进行加权 , 重新得到一组系数向量 , 利用最短距离聚类法进行聚类 , 结果如图 3 所示 。图 3 利用改进的方法得到的 ECG 信号聚类树形图Fig 3 ECG clustering tree diagram with the improved method由

28、上图可以看出非正常组的样本 22、30、20 被分到了正常组 , 正常组的 12 被分到了非正常组 , 只有 4 个聚类错误 , 其他的划分都是正确的 。表 2 是利用改进后的方法与未改进方法对 ECG 进行聚类的结果对比 。由表中所示 , 对 ECG 信号而言 , 利用加过权重的 ARMA 模型系数作为特征进行聚类的精度明显提高 。进而 , 表明所提出的权重确定方法表 2 两种方法聚类结果的对比Tab2 The comparison of clustering results in two method利用已有的方法 利用改进的方法聚到正常组的 ECG 信号18 个 NSR 17 个 NSR

29、23 个 PVC 3 个 PVC聚到非正常组的 ECG 信号 17 个 PVC 37 个 PVC1 个 NSR聚类准确度 /% 60. 34 93. 100286 期 毛雪岷 , 等 : 基于 ARMA 模型的心电聚类算法法对聚类是有效的 。3 讨论和结论对心电信号 ( ECG) 进行聚类找出心律失常信号是医生诊断病症的方法之一 , 在各种心律失常中 ,心室早期收缩 ( PVC) 最为常见 。正确检测出 PVC,是提高心律失常事件检测准确性的关键 , 也是本研究重点 。采用了一种新的特征提取方法 , 对 ECG 信号模式识别之后 , 以它们拟合 ARMA 模型的系数作为聚类的前提 , 对每维系

30、数进行加权 , 以它们的欧氏距离为结构不相似测度聚类 。利用上述方法处理了MIT-BIH 数据库的 58 个 ECG 信号 , 成功聚类 54个 , 聚类的准确率达到 93. 10% , 证明了所提权重确定方法的有效性 。在已有研究的基础上作出了改进 , 实验的结果表现良好 , 证明此方法在 ECG 信号的聚类过程中是有效的 , 为聚类过程的实现找到了一种新的途径 。但是仍然有 4 个聚类错误 , 最主要原因是拟合 ARMA 模型的阶数确定可能不够合理 ,从而导致提取的特征不能完全反映 ECG 信号的特点 。不断改进 ARMA 模型的定阶方法 , 增加提取特征的代表性是今后研究的一个重要方向

31、。本研究对正常窦性心律 ( NRS) 和心室早期收缩( PVC) 两种 ECG 信号进行聚类分析 , 非正常的心电信号有多种 , 进一步的深化研究可把此方法运用在多种 ECG 信号的区分上 。同样 , 也可把此方法运用到其他类型的时间序列分析当中 , 增加此方法的实践意义 。参考文献 1 Yeh Yun-Chi, Chiou Che-Wun, Lin Hong-Jhih Analyzing ECGfor cardiac arrhythmia using cluster analysis J ExpertSystems with Applications, 2012, 39( 1) : 1000

32、 1010 2 刘慧婷 , 倪志伟 基于 EMD 与 K-means 算法的时间序列聚类 J 模式识别与人工智能 , 2009, 22( 5) : 803 808 3 曹玉珍 , 李广 , 范增飞 基于小波变换特征提取的支持向量机心搏分类研究 J 天津大学学报 , 2007, 40( 7) : 811 815 4 张灏 心律不齐 ECG 模式分类研究 D 上海 : 上海交通大学 , 2005 5 彭良瑞 , 杨振野 , 李玲华 , 等 基于单片机的实时室性 QRS 波分类方法的研究 J 中国医疗器械杂志 , 1997, 21( 3) :133 135 6 Skordalakis E, Trah

33、anias P Syntactic pattern recognition of theECG J IEEE Trans on Pattern Analysis and MachineIntelligence, 1990, 12( 7) : 648 657 7 葛丁飞 , 李小梅 心电信号多周期融合特征提取和分类研究 J 中国生物医学工程学报 , 2006, 25( 6) : 645 649 8 Andreo RV, Muller SMT, Boudy J, et al Incremental HMMtraining applied to ECG signal analysis J Compu

34、ters Biologyand Medicine, 2008, 38( 6) : 659 667 9 尚宇 , 徐婷 , 何永辉 分数阶傅里叶变换在心电信号处理中的应用 J 电子科技 , 2012, 24( 8) : 116 118 10 杨荣峰 , 魏义祥 多级自组织映射用于心电信号 QRS 波群聚类 J 清华大学学报 ( 自然科学版 ) , 2007, 47( 3) : 385 388 11 Gulera I, Ubeyh ED. ECG beat classifier designed by combinedneural network model J . Pattern Recognition, 2005, 38( 2) :199 208 12 翟晓 , 陈伟 一种计算简单的心电诊断算法的研究 J 传感技术学报 , 2007, 20( 4) : 731 734 13 孙吉贵 , 刘杰 , 赵连宇 聚类算法研究 J 软件学报 , 2008,19( 1) : 48 60128

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报