收藏 分享(赏)

基于pca的决策树算法在心脏病诊断中的应用.doc

上传人:cjc2202537 文档编号:237598 上传时间:2018-03-24 格式:DOC 页数:12 大小:45.50KB
下载 相关 举报
基于pca的决策树算法在心脏病诊断中的应用.doc_第1页
第1页 / 共12页
基于pca的决策树算法在心脏病诊断中的应用.doc_第2页
第2页 / 共12页
基于pca的决策树算法在心脏病诊断中的应用.doc_第3页
第3页 / 共12页
基于pca的决策树算法在心脏病诊断中的应用.doc_第4页
第4页 / 共12页
基于pca的决策树算法在心脏病诊断中的应用.doc_第5页
第5页 / 共12页
点击查看更多>>
资源描述

1、基于 PCA 的决策树算法在心脏病诊断中的应用总第 240 期2009 年第 10 期计算机与数字工程Computer.DigitalEngineeringVo1.37NO.10171基于 PCA 的决策树算法在心脏病诊断中的应用程颖“ 崔运涛(中国地质大学计算机学院武汉 430074)(中国地质大学资源学院.武汉 430074)摘要主成分分析(PrincipalComponentAnalysis,PCA) 可以处理大量过程参数问的关系与变化,排除次要因素,提取主要因素.文章将主成分分析和决策树 C4.5 算法相结合,提出一种心脏病诊断预测的新方法,该方法采用 PCA 方法对影响心脏病诊断的众

2、多变量进行降维处理,减少了预测模型的输入量,消除输入数据间的相关性,用 C4.5 算法建立心脏病诊断的预测模型.经实验证明有效的提高了 CA.5 算法的分类正确率 ,提高了心脏病诊断的正确率.关键词主成分分析决策树 C4.5 算法信息增益心脏病诊断中图分类号 TP393ApplicationofDecisionTreeAlgorithmBasedonPCAintheApplicationofHeartDiseaseDiagnosisChengYingCuiYuntao(DepartmentofComputerScience,ChinaUniversityofGeosciences“,Wuhan

3、430074)(DepartmentofResource,ChinaUniversityofGeosciences,Wuhan430074)AbstractPrincipalComponentAnalysis(PCA)canhandlealargenumberofprocessparametersandchangestherelationshipbetweentheexclusionofsecondaryfactors,extractionofthemainfactors.Thecombinationoftheprincipalcomponentanalysisanddecisiontreea

4、lgorithmC4.5,hasbeenusedintheheartdiseasediagnosis.ThenewforecastmethodfirstusePCAfordatadimensionalityreduction,reducingtheinputofthepredictionmode1.ThentheC4.5algorithmhasusedtoestablishthepredictionmodeloftheheartdiseasediagnosis.TheexperimentprovedthattheresultofthismethodWaSmoreaccuratethantheC

5、4.5algorithm,anditimprovedthediagnosticaccuracyrateofheartdisease.KeywordsPCA,decisiontreealgorithmC4.5,informationgain,heartdiseasediagnosisClassN 啪 berTP3931 引言心脏病是目前世界上危害人类身体健康的主要疾病之一,由于心脏病诊断需要多项临床检验指标,是典型的多因素识别问题.因此,随着计算机的普及应用,借助数据挖掘方法利用临床检验指标建立疾病诊断模型用于疾病的辅助诊断越来越受到医学界的重视.数据挖掘的核心技术,即算法主要有统计分析方法,神

6、经元网络,决策 M-h-和遗传算法等.随着现代科技的发展,特别是数学方法和计算机技术的应用,出现了一些新的集成预测方法.如谷琼等_1 的基于主成分分析的 GEP 算法等.主成分分析(PrincipalComponentAnalysis,f】CA)是一种常用的统计方法,可以处理大量过程参数间的关系与变化,排除次要因素,提取主要因数.决策树是一种常用于预测模型的算法,它是通过将大量数据有目的地分类,从而找出潜在的,有价值的信息.本文将统计分析中的主成分分析法(PrincipalComponentAmlysis,PCA),和决策树 CA.5 算法相结合,用于心脏病的诊断中以获取更好的预测准确率.*收

7、稿日期:2009 年 6 月 24 日,修回日期:2009 年 7 月 22 日作者简介:程颖,女,硕士,研究方向:数据挖掘.崔运涛,男,硕士,研究方向:地学信息工程.程颖等:基于 PCA 的决策树算法在心脏病诊断中的应用第 37 卷2 主成分分析的原理及基本思想原理:设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的总和变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,它是数学上处理数据降维的一种常用的方法.基本思想:主成分分析是设法将原来众多(比如 m 个) 具有一定相关性的指标,重新组合成一组新的互相无关的综合指标来代替原

8、来的指标.通常数学上的处理就是将原来 m 个指标作线性组合,作为新的综合指标.最经典的做法就是用 F(选取的第一个线性组合,即第一个综合指标)的方差来表达,即 Var(F)越大,表示 F 包含的信息越多.因此在所有的线性组合中选取的 F 应该是方差最大的,故称 F 为第一主成分 .如果第一主成分不足以代表原来 P 个指标的信息 ,再考虑选取即选第二个线性组合,为了有效地反映原来信息,F 已有的信息就不需要再出现再 F.中,用数学语言表达就是要求 Cov(F,F2)=0,则 F.为第二主成分,依此类推可以构造出第三,第四,第 P 个主成分 4.3 决策树 C4.5 算法决策树方法的起源是概念学习

9、系统 CLS,然后发展到 ID3 方法而为高潮,后来演化为能处理连续属性的 C4.5.决策树方法是应用最广泛的归纳推理算法之一,对噪声数据有很好的建造性且能学习析取表达式.决策树方法是挖掘分类规则的有效方法,通常包括 2 个部分:1)树的生成,开始时所有的数据都在根节点,然后根据设定的标准选择测试属性,用不同的测试属性递归进行数据分割.2)树的修剪,就是除去一些可能是噪音或异常的数据.基于信息熵的 ID3 算法,C4.5 算法都能有效地生成决策树,建决策树的关键在于建立分支时对记录字段不同取值的选择3.C4.5 算法利用比较各个描述性属性的信息增益值(InformationGain 值)的大小

10、 ,来选择 Gain 值最大的属性进行分类.如果存在连续型的描述性属性,那么首先要是把这些连续型属性的值分成不同的区间,即离散化.把连续型属性值离散化的方法有:1)寻找该连续型属性的最小值,并把它赋值给MIN,寻找该连续型属性的最大值,并把它赋值给MAX:2)设置区间 MIN,MAX中的 N 个等分断点Ai,它们分别是 A=MIN+,其中i 一 1,2,N.3)分别计算把MIN,A 和(A,MAX(i 一1,2,)作为区间值时的 Gain 值,并进行比较;4)选取 Gain 值最大的 A 作为该连续型属性的断点,把属性值设置为MIN,A和(A,MAX)两个区间值.C4.5 算法使用信息增益的概

11、念来构造决策树,其中每个分类的决定都与所选择的目标分类有关.信息增益是指信息熵的有效减少量,根据它就能够确定在什么样的层次上选择什么样的变量来分类.4PCAC4.5 算法及其实验过程4.1PCA_C4.5 算法该方法以 PCA 为数学基础,对数据进行预处理,在保留测试数据主要信息的前提下,去除数据间的相关性,减少噪音影响,提高数据集的质量,有效降低数据维数.再用决策树 C4.5 算法进行建模.PCAC4.5 算法框架描述如下 :R:asetofnon-goalattributessomeofwhichwithcontinuousvalues,C:thegoalattribute,S:atrai

12、ningset;returnsadecisiontree;BEGIN:1.InputsamplesetsX:2.ComputemeanandstandarddeviationofX,standardizationX.XX:/计算 X 的均值和标准差,对 X 标准化;3.CovarianceMatrixcov(X);/计算协方差矩阵4.Eigenvalue,Eigenvector一 eig(covarianceMatrix);/计算协方差矩阵的特征值和特征向量5.Eigenvaluesflipud(Eigenvalue);/降序排列特征值6.Selecteigenvalucsandeigenve

13、ctor;/选择相应的特征值和特征向量7.DetermineKpiecesofprincipalcomponentsaccordingtOtheiraccumulativecontributionsratio;/根据累积贡献率确定 K 个主成分8.ComputethesamplevalueofthefirstKpiecesofprincipalcomponents/计算前 K 个主分量的样本值ifSisemptythen第 37 卷(2009) 第 1O 期计算机与数字工程returnasinglenodewithvalueFailure;ifSconsistsofrecordsallwith

14、thesamevalueforthegoalattributethenreturnasinglenodewiththatvalue;ifRisemptythenreturnasinglenodewithasvaluethemostfrequentofthevaluesofthegoalattributethatarefoundinrecordsofS:notethatthentherewillbeerrors.thatis,recordsthatwillbeimproperlyelassified;forallattributesofR(Ri)doifvaluesofRiarecontinuo

15、usthenbeginLetA1betheminimumofRi;LetAmbethemaximumofRi;m 值手工设置forjfrom2tOm21doAjA1+j3(A12Am)m;LetAbethevaluepointofRiwithlargestGain(Ri,S)basedon一 Aj,Aj;end;LetDbetheattributewithlargestGain(D,S)amongattributesinR;LetdjIj 一 1,2.,mbethevaluesofattributeD;LetsjjJ 一 1,2,m/bethesubsetsofSconsistingrespe

16、ctivelyofrecordswithvaluedjforattributeD;returnatreewithrootlabeledDandarcslabeleddl,d2,?,dmgoingrespectivelytOthetrees;C4.5(R2D,C,S1),(24.5(R2I).C,S2),C4.5(R2I),C,Sm);End.4.2 处理数据介绍我们针对 UCI 中提供的两组心脏病相关的数据进行研究,数据中对影响心脏病诊断的十四个属性进行了统计.两组数据的名称分别为 hearte,heartstatlog,分别有 304,270 组统计值.4.3 实验过程1)我们首先应用决策树

17、 C4.5 算法对两组数据进行处理,经实验处理后保存 C4.5 算法的实验结果.2)将数据运用 PCA 方法进行预处理,将处理结果保存.经过 PCA 预处理后的数据再用 C4.5算法建模,将实验结果保存.4.4 实验结果分析经过 PCA 处理,数据 hearte 的 303 组数据提取出 16 个主成分分量,数据 heartstatlog 的 270组数据提取出 l2 个主成分分量.分别对原始数据和经主成分分析处理后的数据进行建模.建模过程中我们首先采用 10 一 fold 交叉验证,然后采用百分比分割的方法将测试中的数据的66%用来训练模型,剩余 34 用来验证结果.用这两种方法所得的结果对

18、 C4.5 算法及经过 PCA预处理的 C4.5 实验结果进行比较.实验结果如表 1 所示.表 1 分类结果比较(24.5 算法 77.557876.666776.923176.087FCA-CA.579.86882.592689.423179.8478通过对三组数据进行不同方法的建模我们可以看出:1)在 10 一 fold 交叉验证的基础上 C4.5 算法对两组实验数据的平均分类正确率为:(77.5578+76.6667)/277.1123,而 PCAC4.5 算法对三组实验数据的平均分类正确率为:(79.868+82.5926%)/281.2303.后者的正确率提高了49/6 左右.2)在

19、百分比分裂的基础上建模时,C4.5 算法对两组实验数据的平均分类正确率为:(76.923l+76.087)/2:76.5051,而 PCA.C4.5 算法对两组实验数据的平均分类正确率为:(89.42319/6+79.3478)/284.3855.后者的正确率提高了近 8.从上面两点来看 PCAC4.5 算法要比 C4.5 算法的结果分类正确率高.5 结语影响心脏病诊断的因素是多方面的,各因素之间的关系不明确,心脏病诊断与其影响因素之间存在着复杂的非线性关系.本文所提出的心脏病诊断预测的 PCAC4.5 方法结合 PCA 和 C4.5 算法两者的优点.现实世界的数据一般是含噪声的,冗余的和不一

20、致的,严重地影响了数据挖掘结果的质量.以 PCA 为数学基础的数据预处理在保留测试数据主要信息的前提下,去除数据间的相关性,减少噪音影响,提高数据集的质量,有效降低数据维数.在此基础之上的心脏病诊断预测根据 C4.5等优点实现复杂函数的自动建模.本文通过对PCAC4.5 算法在心脏病诊断中的实验结果分析表明,PCAC4.5 建模所得到的预测结果更接近真实值,比 C4.5 算法得到的结果具有更高的预测精度.174 程颖等:基于 PCA 的决策树算法在心脏病诊断中的应用第 37 卷参考文献1谷琼,蔡之华 ,朱莉,等.一种基于 PCA 的 GEP 算法及在采煤工作面瓦斯涌出量预测中的应用J.应用基础

21、与工程科学,2007,(4)2罗森林,等 .C4.5 算法在 2 型糖尿病分类规则建立中的应用J.计算机应用研究,2004,(7):17417933 潘贤 ,基于决策树分类(24.5 算法对乳腺肿块计算机辅助诊断的应用研究J.中国医疗器械信息,2008,14(9)4王阗,等.决策树 C4.5 算法在森林资源二类调查中的应用J】.南京林业大学(自然科学版),2007,31(3)5夏禹杰,等 .主成分分析法在估算石脑油裂解参数中的应用J.计算机与应用化学,2006,23(1)6张素梅.基于主成分分析的教师教学质量综合评价J.科技信息,2008,(22)7贾明辉,华志强 .主成分分析数据处理方法探讨

22、J.内蒙古民族大学( 自然科学版 ),2008,23(4)E8张婧,王书海 .C4.5 算法在医疗保险数据挖掘中的应用研究J.石家庄铁道学院(自然科学版),2008,21(2)9李永振.主成分分析法在林甸 Ms5.1 地震回顾性预测中的应用J.东北地震研究,2008,24(2)1O赵阳,陆静 .C4.5 算法在大豆致病性分析中的应用J. 河北农业科学,2007,11(6):9698(上接第 87 页)I 口后置条件:描述过程结果可能导致的后续过 5 结语程.过程模板为过程的定义和建立奠定了基础,依据过程模板定义标准软件过程,存储于过程规范库中,为过程管理中的软件工程过程和软件管理过程以及过程评估,产品评估提供指导和规范依据.4.2 过程管理过程管理是软件质量保障模型的核心内容,也是软件质量保障的具体实现.在过程定义的基础上,过程管理在过程规范库的指引下对软件过程实施改进.软件工程过程生成的软件配置项在配置管理工具的支持下存储于软件配置库中,软件管理过程的输出产品存储于管理产品库中.实施过程管理的关键在于过程评估和产品评估,评估的原则依据过程规范库中的规范生成,根据该类型已定义的软件过程的标准对该类过程的质量进行评估,评估结果用来对过程实施改善,完成之后重复进行评估和改善,直至过程质量达到预定标准.4.3 模型应用

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 教育学

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报