1、基于 weka 的数据分类分析学号: Z15030739姓名:刘丽丽专业:计算机技术一、实验目的1、使用数据挖掘中的分类算法,对数据集进行分类训练并测试;2、应用不同的分类算法,比较他们之间的不同;3、了解 Weka平台的基本功能与使用方法。二、实验环境Windows7+weka三、实验内容与步骤1、数据准备及预处理2、三种分类方法分析(1) 、决策树分类;(2) 、K 最近邻算法分类;(3) 、贝叶斯分类;3、三类分类方法的校验结果比较四、实验内容与步骤1、实验数据预处理首先是格式处理,一般情况下,数据的储存格式是xlsx格式。使用weka 进行数据分析时,需要将数据的格式利用格式转换工具转
2、换成arff格式。比如先使用UltraEdit软件将xlsx转换成csv格式,然后再在weka 中导入csv格式的数据,然后点击“save”, 选择”. arff”格式。本次实验选择的是“ breast-cancer.arff”作为分析数据。所以无需格式转换处理。其次是数据处理过程,用“ Explorer ”打开“breast-cancer .arff ”。总共有 286 条数据。第 1步:从“ breast- cancer.arff ”中截取86 条, 另存储为“ breast - data.arff ”,作为校验数据。第 2步:把剩下的200 条另存储为“ breast- train.ar
3、ff ”,作为训练数据。第 3步:点击” undo”恢复原“ breast - cancer.arff ”。2、实验过程及结果2.1 决策树分类用“ Explorer ”打开“ breast- train.arff”切换到classify面板,选择trees-J48分类器。选择默认参数。点击start按钮,启动实验。结果如下:校验数据集决策树得出的结果:初步结果分析:使用决策树进行分类, 对于已知的数据“ breast-data .arff”进行比较准确的分类,准确率达到75.5814%。2. 2、 K 最近邻算法分类点“ Choose”按钮选择“laze-ibk”,选择Cross-Valid
4、atioinfolds=10,然后点击“start”按钮,结果如下图:使用不同的叶子节点的实例个数K 值12345678910准确率61.5%61%61%63%63%63.5%64%64%65.5%65.5%初步结果分析:使用K 最近邻算法分类时,K 的最优值为9 或 10。校验数据集决策树得出的结果:校验结果:对使用 k= 9 训练出来的分类模型进行校验,准备率为77.907 % 。2.3 、朴素贝叶斯分类点“ Choose”按钮选择“bayes-NaiveBayes ”,选择 Cross-Validatioinfolds=10 ,然后点击“ start”按钮,结果如下:得到准确率为:67 %。校验数据集决策树得出的结果:校验结果:校验的准确率达到74.4186 % 。2.4 、三类分类方法的校验结果比较据上述数据, 虽然朴素贝叶斯分类算法有最高的准确率,而标准误差较高;而决策树的准确率相对较高而标准误差也较高,综合评价可以得知,当前最好的分类算法是K 最近邻分类算法。五、实验总结通过本次实验, 使我对 Weka平台有了比较完整和深入的认识,对 Weka中进行分类分析的叶斯算法和决策树算法都有了进一步的理解。通过实验, 对数据挖掘本身也有了比较直观的认识,K 最近邻算法、 贝同时也深刻体会到数据预处理对于数据挖掘的重要性。