WEKA实验报告.docx-道客多多_道客多多docduoduo.com

资源描述

1、基于 weka 的数据分类分析学号： Z15030739姓名：刘丽丽专业：计算机技术一、实验目的1、使用数据挖掘中的分类算法，对数据集进行分类训练并测试；2、应用不同的分类算法，比较他们之间的不同；3、了解 Weka平台的基本功能与使用方法。二、实验环境Windows7+weka三、实验内容与步骤1、数据准备及预处理2、三种分类方法分析(1) 、决策树分类；(2) 、K 最近邻算法分类；(3) 、贝叶斯分类；3、三类分类方法的校验结果比较四、实验内容与步骤1、实验数据预处理首先是格式处理，一般情况下，数据的储存格式是xlsx格式。使用weka 进行数据分析时，需要将数据的格式利用格式转换工具转

2、换成arff格式。比如先使用UltraEdit软件将xlsx转换成csv格式，然后再在weka 中导入csv格式的数据，然后点击“save”, 选择”. arff”格式。本次实验选择的是“ breast-cancer.arff”作为分析数据。所以无需格式转换处理。其次是数据处理过程，用“ Explorer ”打开“breast-cancer .arff ”。总共有 286 条数据。第 1步：从“ breast- cancer.arff ”中截取86 条, 另存储为“ breast - data.arff ”，作为校验数据。第 2步：把剩下的200 条另存储为“ breast- train.ar

3、ff ”，作为训练数据。第 3步：点击” undo”恢复原“ breast - cancer.arff ”。2、实验过程及结果2.1 决策树分类用“ Explorer ”打开“ breast- train.arff”切换到classify面板，选择trees-J48分类器。选择默认参数。点击start按钮，启动实验。结果如下：校验数据集决策树得出的结果：初步结果分析：使用决策树进行分类，对于已知的数据“ breast-data .arff”进行比较准确的分类，准确率达到75.5814%。2. 2、 K 最近邻算法分类点“ Choose”按钮选择“laze-ibk”，选择Cross-Valid

4、atioinfolds=10，然后点击“start”按钮，结果如下图：使用不同的叶子节点的实例个数K 值12345678910准确率61.5%61%61%63%63%63.5%64%64%65.5%65.5%初步结果分析：使用K 最近邻算法分类时，K 的最优值为9 或 10。校验数据集决策树得出的结果：校验结果：对使用 k= 9 训练出来的分类模型进行校验，准备率为77.907 % 。2.3 、朴素贝叶斯分类点“ Choose”按钮选择“bayes-NaiveBayes ”，选择 Cross-Validatioinfolds=10 ，然后点击“ start”按钮，结果如下：得到准确率为：67 %。校验数据集决策树得出的结果：校验结果：校验的准确率达到74.4186 % 。2.4 、三类分类方法的校验结果比较据上述数据，虽然朴素贝叶斯分类算法有最高的准确率,而标准误差较高；而决策树的准确率相对较高而标准误差也较高，综合评价可以得知，当前最好的分类算法是K 最近邻分类算法。五、实验总结通过本次实验，使我对 Weka平台有了比较完整和深入的认识，对 Weka中进行分类分析的叶斯算法和决策树算法都有了进一步的理解。通过实验，对数据挖掘本身也有了比较直观的认识，K 最近邻算法、贝同时也深刻体会到数据预处理对于数据挖掘的重要性。

展开阅读全文