1、基于 AdaBoost 法在代谢综合征不平衡数据分类中的应用 闫慈 田翔华 阿拉依阿汗 张伟文 曹明芹 新疆医科大学公共卫生学院 新疆医科大学医学工程技术学院 摘 要: 目的 (1) 针对医疗数据不平衡的特点, 以代谢综合征为例, 通过比较单纯决策树与 AdaBoost+决策树分类代谢综合征的性能, 从而确定 AdaBoost+决策树在医疗不平衡数据挖掘中的优点, 为计算机辅助诊断代谢综合征提供方法学参考。 (2) 采用决策树探讨代谢综合征的影响因素。方法 采用 AdaBoost 平衡代谢综合征数据, 并比较数据平衡前后决策树建模的性能, 采用 F-value, G-mean 和AUC 分析评
2、价模型。结果 (1) 相较于单纯决策树, AdaBoost+决策树的 F-value值提高 6.3%, G-mean 提高 3.5%, AUC 提高 0.4%, 分别表明采用 AdaBoost+决策树分类代谢综合征患者识别的性能提高 6.3%, 数据整体的分类精度提高 3.5%;模型的综合分类能力提高 0.4%。 (2) 探讨决策树影响因素均显示:空腹血糖、高密度脂蛋白、收缩压、年龄、体重指数是代谢综合征的主要影响因素。此外, 在本研究中, 决策树提示:若 FPG6.02, BMI24.99, SBP139, age46, 则患有代谢综合征;若 FPG6.02, HDL-C0.99, BMI2
3、4.99, age61, 则不患代谢综合征。结论 采用 AdaBoost+决策树的性能优于决策树, 使用决策树所得结果与相关专业研究中代谢综合征影响因素相同。关键词: 代谢综合征; AdaBoost; 决策树; 不平衡数据集; 作者简介:闫慈 (1991-) , 女, 在读硕士, 研究方向:数据挖掘作者简介:曹明芹, E-mail:收稿日期:2017-03-30基金:新疆科技支疆项目 (2016E02082) Based on the application of AdaBoost + decision tree for metabolic syndrome with imbalanced d
4、ataYAN Ci TIAN Xiang-hua ALAYI-Ahan ZHANG Wei-wen CAO Ming-qin School of Public Health, Xinjiang Medical University; Abstract: Objective ( 1) To determine the advantages of the AdaBoost + decision tree in mining unbalanced medical data by comparing the metabolic syndrome classification performance o
5、f decision tree and AdaBoost + decision tree concerning the characteristics of unbalanced medical data. So as to provide methodology reference for computer-aided diagnosis of metabolic syndrome. ( 2) To explore the influencing factors of metabolic syndrome with a decision tree. Methods The performan
6、ce of the decision tree model before and after AdaBoost algorithms balancing metabolic syndrome dataset was compared. F-value, G-mean and AUC were used to analyse and evaluate the models. Results ( 1) Comparing with the decision tree, AdaBoost +decision trees F-value increased by 6. 3%, G-mean incre
7、ased by 3. 5%, and AUC increased by 0. 4%, indicating that with the AdaBoost + decision tree classification the patients with metabolic syndrome, the recognition performance increased by 6.3%, the overall classification accuracy increased by 3. 5%, and the comprehensive classification ability of the
8、 model increased by 0. 4%. ( 2) Fasting plasma glucose, high-density lipoprotein, systolic blood pressure, age and body mass index were the major factors of metabolic syndrome. Moreover, decision tree showed that the metabolic syndrome tended to occur if FPG 6.02, BMI 24. 99, SBP 139 and age46, and
9、the metabolic syndrome tended not to occur if FPG6. 02, HDL-C0. 99, BMI24. 99 and age61. Conclusion The performance of AdaBoost + decision tree is better than the decision tree, and the influencing factors of the metabolic syndrome in the research are similar to that of other related professional st
10、udies.Keyword: Metabolic syndrome; AdaBoost; Decision tree; Imbalanced dataset; Received: 2017-03-30不平衡数据是指分类数据中某一类的数量远大于另一类的数量1。在医学领域, 阳性结局的数量往往小于阴性结局, 使得医学数据不平衡。决策树作为一种被广泛使用的数据挖掘分类方法, 在对数据分类时, 默认数据集中各类别所包含的样本是均衡的, 故分类方法都是以提高数据集的总体准确度为目标2。如在癌症数据集中, 为提高分类算法整体的分类性能, 将全部个体判别为健康即可得到较高的分类性能, 但不能准确地识别出少数
11、类的病人, 因此并无任何实际意义。面对传统决策树的局限性, 本研究以代谢综合征 (metabolic syndrome, MS) 为切入点, 建立基于 Ada Boost+决策树的混合模型识别代谢综合征患者, 旨在为计算机辅助诊断代谢综合征提供方法学参考。1 对象与方法1.1 研究对象选取新疆某体检中心 2014 年 1 月-2015 年 12 月的体检者信息 40 665 例, 其中男性 20789 例, 女性 19 876 例, 年龄 8-93 (42.7413.59) 岁。采用统一设计的调查表, 由经过专业培训的医务人员进行体检及问卷调查。体检项目包括身高、体重、血压、血糖、血脂等指标。
12、调查涉及吸烟、饮酒、家族史等信息, 共 14 个生理、生化指标, 1 个分类指标。纳入标准为以上体检及问卷调查项目齐全者。代谢综合征的诊断严格参照中华医学会糖尿病学分会的标准3, 得代谢综合征患者占总样本的 9.8%。1.2 研究方法1.2.1 决策树本研究采用 C4.5 决策树算法。该算法将连续型变量采用离散化的取值空间策略, 进行优化二分, 并采用信息增益率进行分类性能评估。离散化的方法为: (1) 寻找连续型变量的最小值和最大值, 并分别赋值为 min 和 max; (2) 设置区间min, max中 N 个等分段点 Ai, 其中, i=1, 2, , N; (3) 分别计算min, A
13、i和 (Ai, max (i=1, 2, , N) 作为区间值时的 Gain 值, 并进行比较; (4) 选取 Gain 值最大的 AK作为该连续型变量的断点, 将变量值设置为min, A k和(Ak, max两个区间4。决策树的剪枝策略从根节点开始递归对决策树各节点进行检查, 若该节点的某一子树所含集合的全局支持度小于最小全局支持度阈值, 则直接剪掉该子树;若该节点存在叶节点作为子树, 并且该节点所含集合对某一叶节点的类支持度大于最大类支持度阈值, 则剪掉此节点直接指向该叶节点的其他子树5。1.2.2 Ada Boost 算法Ada Boost 是一种基于迭代的继承学习方法, 其基本思想是在
14、初始化时, 对所有训练样本均附以一个相同的权重, 然后通过若干训练得到若干弱分类器。在每一类训练结束后, 计算该弱分类器的错误率, 并据此对该分类器上分类错误的样本增大权重, 分类正确的样本权重减小, 下一轮训练在更新的样本集上进行, 最后这些弱分类器集称为一个强分类器完成分类任务6。Ada Boost 算法具体步骤如下:(1) 假设样本总数为 N, 其中 m 个健康个体, l 个代谢综合征患者, 对于健康个体初始化权重为 1/2m, 对于代谢综合征初始化权重为 1/2l;(2) 给定训练次数 T, 开始令迭代次数 t=1;(3) 标准化权重 1, n, 使得 ;(4) 对于每一个特征 fj训
15、练一个弱分类器 hj;(5) 在当前权重 t, 1, t, 2, , t, N的情况下, 计算所得弱分类器 hj的分类误差:选择经过上述计算所得具有最低误差 j的分类器 hj, 令 (h t, t) = (hj, j) ;(6) 更新每个样本所对应的权重:其中 , 如果样本 xn被分类器 ht正确分类, 则 en=0, 反之, e n=1;(7) 更新迭代次数, 看是否达到迭代次数 T, 没有达到则返回步骤 (3) , 否则执行步骤 (8) ;(8) 最终强分类器为式中, 7。1.3 评价指标本研究选用 F 值 (F-value) 、几何均数 (G-mean) 和 ROC 曲线下面积 (Are
16、a under receiver operating characteristic, AUC) 作为不平衡数据集分类性能的评价指标。上述指标中, 以 AUC 作为主要评价指标, 取值均为0, 1, 值越接近 1, 分类性能越优8。同时, 为提高算法性能的可靠性, 采用 10 折交叉验证, 即随机将数据集分为 10 份, 轮流将其中 9 份做训练集, 1 份做测试集, 10 次结果的均值作为决策树算法精度的估计9。2 结果应用单纯决策树与 Ada Boost+决策树分类代谢综合征结果见表 1。如表 1 所示, 相较于单纯决策树, Ada Boost+决策树的 F-value 值提高 6.3%,
17、G-mean 提高3.5%, AUC 提高 0.4%, 分别表明 Ada Boost+决策树识别代谢综合征患者的分类性能提高 6.3%, 数据集总体的分类性能提高 3.5%, 模型的综合分类能力提高0.4%。在本研究中, 采用单纯决策树与 Ada Boost+决策树探讨代谢综合征的影响因素。结果表明:两种方法产生的树状图大致相同, 见图 1, 图 2。从决策树可看出, 代谢综合征的影响因素主要是:空腹血糖、高密度脂蛋白、舒张压、年龄和BMI。但加入 Ada Boost 算法平衡数据集后, 产生的决策树更详细, 添加了民族、收缩压、血脂、家族史等信息。此外, 决策树提示:若体检者 FPG6.02
18、, BMI24.99, SBP139, age46, 则其患有代谢综合征;若体检者 FPG6.02, HDL-C0.99, BMI24.99, age61, 则其不患代谢综合征等。表 1 运用 Ada Boost 算法前后决策树模型性能 下载原表 图 1 单纯决策树产生的树状图 下载原图图 2 Ada Boost+决策树产生的树状图 下载原图3 讨论有研究表明, 数据不平衡会影响模型分类性能10。针对医学数据不平衡的现象, 本研究以代谢综合征为切入点, 在本研究中, 不平衡比例为 19.2。通过比较单纯决策树与 Ada Boost+决策树智能甄别体检中的代谢综合征患者。研究结果表明:AUC 分
19、别为 0.929 和 0.933, 均具有较优的模型性能。一方面, 这与样本量的大小有关, 该样本由 31 684 份 15 个变量的体检数据组成;另一方面, 这与选取的方法有关, 采用 Ada Boost+决策树挖掘代谢综合征所建立的模型性能更优, 说明数据不平衡影响模型性能, 将数据平衡化, 有助于模型性能的提高。此外, 运用 Ada Boost+决策树, F-value 值提高, 表明采用该方法对体检数据分类, 可提高少数类患者的分类性能。决策树结构简单、易于理解, 能清楚显示对分类有意义的变量, 同时能够处理连续型变量、分类变量、有序变量和缺失数据。在结果输出及可视化方面, 决策树占有
20、明显优势, 决策树生成的树状图对应着一些“规则” (从根节点到每个叶子节点对应的路径就是“规则”) 为分类提供依据11。构造决策树模型中, 树枝数和叶子结点数均可调, 具有伸缩性和扩展性的优点12。从决策树节点看, 与目前大规模流行病学调查得出的代谢综合征发病高危因素一致13, 这表明决策树产生的树状结构具有实际意义, 与相关专业认知水平相同。因此, 可用决策树分类体检中的代谢综合征患者和健康人。应用 Ada Boost+决策树能挖掘更多的代谢综合征影响因素, 其分类更接近代谢综合征的诊断标准, 能帮助代谢综合征高危人群积极采取措施, 防止疾病进一步恶化。综上所述, 应用 Ada Boost+
21、决策树智能分类体检中的代谢综合征患者的性能优于单纯使用决策树分类代谢综合征患者, 为计算机辅助诊断代谢综合征提供方法学参考。但有文献报道, 目前, 尚不存在某种数据挖掘方法适用于各种特点的数据, 方法的选择及参数的设置须根据数据的特点而定14。此外, 由于Ada Boost 自身的缺陷, 如权值更新规则仅依据某个样本是否被错误分类来对其更新权值, 易产生退化现象。在接下来的研究中, 应对该算法加以改进或采用其它平衡数据的方法。为提高方法的实用性, 应向有关医学专家进行请教并应用于临床实践的诊断中。参考文献1Longadge R, Dongre S.Class imbalance problem
22、 in data mining reviewJ.International Journal of Computer Science and Network, 2013, 2 (1) :83-87. 2王晓芹.类别不平衡数据的集成学习研究D.济南:山东师范大学, 2010. 3中华医学会糖尿病学分会代谢综合征研究协作组.中华医学会糖尿病学分会关于代谢综合征的建议J.中华糖尿病杂志, 2004, 12 (3) :156-161. 4潘贤.基于决策树分类 C4.5 算法对乳腺肿块计算机辅助诊断的应用研究J.中国医疗设备, 2008, 23 (9) :13-14. 5李晨, 闫芬, 赵勇, 等.一种改
23、进的基于粗糙集理论的决策树分类算法J.云南民族大学学报:自然科学版, 2012, 21 (6) :462-465. 6郭乔进, 李立斌, 李宁.一种用于不平衡数据分类的改进 Ada Boost 算法J.计算机工程与应用, 2008, 44 (21) :217-221. 7刘雷, 白云, 王俊, 等.基于激光测距 Ada Boost 分类的室内环境识别J.测控技术, 2016, 35 (4) :51-54, 62. 8Worachartcheewan A, Nantasenamat CA, Prachayasittikul V.Quantitative population-health rel
24、ationship (QPHR) for assessing metabolic syndromeJ.EXCLI Journal, 2013, 12:569-583. 9张琪, 周琳, 陈亮, 等.决策树模型用于结核病治疗方案的分类和预判J.中华疾病控制杂志, 2015, 19 (5) :510-513. 10孟军.不平衡数据集分类算法的研究D.南京:南京理工大学, 2014. 11方俊群, 罗家有, 姚宽保, 等.C5.0 决策树法在出生缺陷预测中的应用J.中国卫生统计, 2009, 29 (5) :473-476. 12董超雄, 肖晓旦, 陈先来, 等.判别分析与决策树在医院信息系统中的应
25、用比较研究J.现代图书情报技术, 2006 (12) :72-77. 13曹毅, 李斌, 贾山移, 等.重庆市成年人代谢综合征的流行病学特征研究J.现代预防医学, 2016, 43 (4) :584-587. 14Heydari M, Teimouri M, Heshmati Z, et al.Comparison of various classification algorithm Met S in the diagnosis of type 2 diabetes in IranJ.International Journal of Diabetes in Developing Countries, 2016, 32 (2) :167-173.