收藏 分享(赏)

数据挖掘期末实验报告.doc

上传人:精品资料 文档编号:10802944 上传时间:2020-01-10 格式:DOC 页数:18 大小:888.50KB
下载 相关 举报
数据挖掘期末实验报告.doc_第1页
第1页 / 共18页
数据挖掘期末实验报告.doc_第2页
第2页 / 共18页
数据挖掘期末实验报告.doc_第3页
第3页 / 共18页
数据挖掘期末实验报告.doc_第4页
第4页 / 共18页
数据挖掘期末实验报告.doc_第5页
第5页 / 共18页
点击查看更多>>
资源描述

1、1数据挖掘技术期末报告理学院姓名:学号:联系电话:专业班级:评分:优|良|中|及格|不及格2一、实验目的 基于从 UCI 公开数据库中下载的数据,使用数据挖掘中的分类算法,用Weka 平台的基本功能对数据集进行分类,对算法结果进行性能比较,画出性能比较图,另外针对不同数量的训练集进行对比实验,并画出性能比较图训练并测试。二、实验环境 实验采用 Weka 平台,数据使用来自从 UCI 公开数据库中下载,主要使用其中的 Breast Cancer Wisc-onsin (Original) Data Set 数据。Weka 是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托大学开发。Weka 使用

2、Java 写成的,并且限制在 GNU 通用公共证书的条件下发布。它可以运行于几乎所有操作平台,是一款免费的,非商业化的机器学习以及数据挖掘软件。Weka 提供了一个统一界面,可结合预处理以及后处理方法,将许多不同的学习算法应用于任何所给的数据集,并评估由不同的学习方案所得出的结果。三、实验步骤3.1 数据预处理本实验是针对威斯康辛州(原始)的乳腺癌数据集进行分类,该表含有Sample code number(样本代码),Clump Thickness(丛厚度) ,Uniformity of Cell Size(均匀的细胞大小) , Uniformity of Cell Shape (均匀的细胞

3、形状) ,Marginal Adhesion(边际粘连) ,Single Epithelial Cell Size(单一的上皮细胞大小) ,Bare Nuclei(裸核) ,Bland Chromatin(平淡的染色质) ,Normal Nucleoli(正常的核仁) , Mitoses(有丝分裂) ,Class(分类) ,其中第二项到第十项取值均为1-10,分类中2代表良性,4代表恶性。 通过实验,希望能找出患乳腺癌客户各指标的分布情况。该数据的数据属性如下:1. Sample code number(numeric ) ,样本代码; 2. Clump Thickness(numeric )

4、 ,丛厚度;3.Uniformity of Cell Size( numeric)均匀的细胞大小;4. Uniformity of Cell Shape(numeric) ,均匀的细胞形状;5.Marginal Adhesion(numeric) ,边际粘连;6.Single Epithelial Cell Size(numeric) ,单一的上皮细胞大小;37.Bare Nuclei(numeric) , 裸核;8.Bland Chromatin(numeric) ,平淡的染色质;9. Normal Nucleoli(numeric) ,正常的核仁;10.Mitoses(numeric) ,

5、有丝分裂;11.Class(enum) ,分类。3.2 数据分析由 UCI 公开数据库得到一组由逗号隔开的数据,复制粘贴至 excel 表中,选择数据分列下一步逗号完成,该数据是有关乳腺癌数据集,有 11 个属性,分别为 Sample code number(样本代码),Clump Thickness(丛厚度) ,Uniformity of Cell Size(均匀的细胞大小) ,Uniformity of Cell Shape (均匀的细胞形状) ,Marginal Adhesion(边际粘连) ,Single Epithelial Cell Size(单一的上皮细胞大小) ,Bare Nu

6、clei(裸核) ,Bland Chromatin(平淡的染色质) ,Normal Nucleoli(正常的核仁) , Mitoses (有丝分裂) ,Class(分类) ,因为复制粘贴过来的数据没有属性,所以手 工 添 加 一 行 属 性 名 。 Weka 分 类 数据 需 把 excel 保 存 为 一 个 csv 文 件 。图 1 中 显 示 的 是 使 用 “Exploer”打 开 “乳 腺 癌 数 据 集 .csv.arff”的 情 况 .如 图 1 所 示 :4(图 1)3.2.1 数 据 预 处 理很 明 显 发 现 , 所 用 的 数 据 都 是 (numeric)数 值 型

7、的 , 需 要 将 数 值 型 离 散化 , 将 “Clump Thickness ”, “Uniformity of Cell Size ”, “Uniformity of Cell Shape”, “ Marginal Adhesion ”, “ Marginal Adhesion ”, “ Bare Nuclei ”, “ Bland Chromatin ”, “Normal Nucleoli ”, “Mitoses”, “Class” 离 散 化 。 我 们 需要 借 助 Weka 中 名 为 “Discretize”的 Filter 来 完 成 。 在 区 域 2 中 点 “Choo

8、se”,出 现 一 棵 “Filter 树 ”, 逐 级 找 到“weka.filters.unsupervised.attribute.Discretize”点 击 , 即 可 。现在“Choose”旁边的文本框应该显示“Discretize -B 10 -M -0.1 -R first-last”。 如图箭头所示,点击这个文本框会弹出新窗口以修改离散化的参数。我们需将第 1,2,3,4,5,6,7,8,9,10 项离散化,其中第一项为 id,可移除。把attributeIndices 右边改成“ 1,2,3,4,5,6,7,8,9,10” 。我们把这两个属性都分成 10段,于是把“bins

9、”改成 “10”。其它不变。点“OK ”回到“Explorer” ,可以看到“Clump Thickness ”, “Uniformity of Cell Size ”, “Uniformity of Cell 5Shape”, “ Marginal Adhesion ”, “ Marginal Adhesion ”, “ Bare Nuclei ”, “ Bland Chromatin ”, “Normal Nucleoli ”, “Mitoses”, 已经被离散化成分类型的属性。经移除后剩 10 项属性,其中一项如图 2 所示,10 项属性可视化如图 3所示:(图 2)6(图 3)3.3.

10、1 决 策 树 分 类用“Explorer ”打开刚才得到的“乳 腺 癌 数 据 集 .csv.arff”,并切换到“Class”。点 “Choose”按钮选择“tree(weka.classifiers.trees.j48)” ,这是 Weka中实现的决策树算法。得到结果如图 4 和图 5 所示:(图 4)7(图 5)这个是针对第一项 Clump Thickness 丛厚度和第九项 Mitoses 有丝分裂项运用 C4.5 决策算法得到误差分析的结果,分析可知总共有 699 个数据进行分类,Clump Thickness(丛厚度)其中 102 个为正确分类,正确分类率为26.03726%,5

11、17 个为错误分类,错误分类为 73.9268%。而第九项 Mitoses 有丝分裂项也是分析 699 个数据,其中正确分类有 579 个数据,正确率为82.8326%,错误分类的有 120 个,错误分类的有 17.1674%。根据混淆矩阵,被错误分类实例很多如图8(图 6)3.3.2 贝 叶 斯 分 类为 了 与 上 面 决 策 树 作 比 较 , 贝 叶 斯 也 选 择 第 一 项 第一项 Clump Thickness 丛厚度和第九项 Mitoses 有丝分裂项,得到结果如下图 7,8 所示:(图 7)9(图 8)这个是针对第一项 Clump Thickness 丛厚度和第九项 Mito

12、ses 有丝分裂项运用贝叶斯算法得到误差分析的结果,分析可知总共有 699 个数据进行分类,Clump Thickness(丛厚度)其中 198 个为正确分类,正确分类率为28.3262%,501 个为错误分类,错误分类为 71.6738%。而第九项 Mitoses 有丝分裂项其中正确分类有 467 个数据,正确率为 66.8097%,错误分类的有 232 个,错误分类的有 33.1903%。根据混淆矩阵,被错误分类实例很多,相对来说,Clump Thickness 丛厚度用两种方法混淆程度差不多,错综复杂,而 Mitoses 有丝分裂项用贝叶斯分类明显混淆矩阵要比用决策树方法混淆率要低,中间

13、第六项到就第九项明显混响不是很多,如图 9 所示。基于以上两种分析,建议用贝叶斯分类方法分类,降低混淆率,提高正确率。10(图 9)3.3.3K 最 近 邻 算 法 分 类在 刚 才 进 行 决 策 树 分 类 和 贝 叶 斯 分 类 的 的 的 那 个 页 面 , 点 “Choose”按 钮 选 择 “laze-ibk”, 选 择 Cross-Validatioin folds=10, 然 后 点 击 “start”按 钮 : 同 样 选择图中箭头指向选择属性,然 后 点 击 “start”按 钮 : 为 了 与 上面 决 策 树 和 贝 叶 斯 作 比 较 , K 最 近 邻 算 法 分

14、类 也 选 择 第一项 Clump Thickness 丛厚度和第九项 Mitoses 有丝分裂项,得到结果如下图 10,11 所示:11(图 10)(图 11)这个是针对第一项 Clump Thickness 丛厚度和第九项 Mitoses 有丝分裂项运用 K 最 近 邻 算法得到误差分析的结果,分析可知总共有 699 个数据进行分类,Clump Thickness(丛厚度)其中 191 个为正确分类,正确分类率为1227.3247%,508 个为错误分类,错误分类为 72.6753%。而第九项 Mitoses 有丝分裂项其中正确分类有 546 个数据,正确率为 78.1116%,错误分类的

15、有 153 个,错误分类的有 21.8884%。根据混淆矩阵,被错误分类实例很多,相对来说,Clump Thickness 丛厚度与前两个算法混淆程度差不多,错综复杂,甚至比前两个更要复杂,而 Mitoses 有丝分裂项用 K 最 近 邻 算法明显混淆矩阵要比用决策树方法和贝叶斯方法混淆率要低,中间第四项到就最后明显混响不是很多,如图 12 所示:(图 12)3.4 三 种 分 类 方 法 结 果 比 较如表所示:决策树 贝叶斯 K 最近邻算法Clump Thickness正确率 26.03726% 28.3262%27.3247%,13Clump Thickness标准误差 0.3109 0

16、.3119 0.3227Mitoses 正确率 82.8326% 66.8097% 78.1116%Mitoses 标准误差 0.1755 0.2104 0.1989四、三种算法在进行测试的性能比较要 进 行 性 能 比 较 , 则 需 比 较 这 10 项 属 性 的 预 测 , 同 上 文 一 样 , 这 里 只比 较 第一项 Clump Thickness 丛厚度和第九项 Mitoses 有丝分裂项,点 “more options.”按 钮 ,选 勾 选 “out prediction”, 其 他 不 勾 选 , 然 后 点 击 “OK”按钮 如 图 13 所 示 :(图 13)得到性能

17、测试结果如下,图 14 分别为第一项 Clump Thickness 丛厚度用决策树方法、贝叶斯、K 最近邻算法预测的结果,图 15 分别为第九项 Mitoses 有丝分裂项用决策树方法、贝叶斯、K 最近邻算法预测的结果。结果如下:1415(图 14)分析第一项 Clump Thickness 丛厚度。性能分析应该包括两个部分,一个部分是测试速度,另一个部分是测试的质量。由于本次使用所使用的数据量一般,不是很多,在测试速度的对比上相差太少,无法进行准确的分析。而在测试质量上,可以从上述数据中很明显得到,在“error”(错误项) ,决策树和 K 最近邻算法很多加号,这说明错误率很大,从而导致分

18、类质量的降低;而对于“probability distribution”(概率分布项) ,决策树和 K 最近邻算法分布很混乱,前六项属性的概率分布波动较大,而贝叶斯与其相比, “error”(错误项) 几乎无“+”,说明其错误率相对其他两种方法,贝叶斯的错误率降低很多,而且在“probability distribution”(概率分布项) ,上,分布很整齐,所以从性能角度上16讲,贝叶斯算法好一点。17(图 15)观察图 15,分析第九项 Mitoses 有丝分裂项,同分析第一项 Clump Thickness 丛厚度一样。在测试速度的对比上相差太少,无法进行准确的分析。而在测试质量上,可以

19、从上述数据中很明显得到,在“error”(错误项) ,决策树与贝叶斯相比,明显决策树加号要多,这说明决策树算法错误率很大,从而导致分类质量的降低,而比较贝叶斯和 K 最近邻算法, “error”(错误项) 贝叶斯错误率明显比 K 最近邻算法要多,而对于“probability distribution”(概率分布项),贝叶斯与 K 最近邻算法分布相对混乱,对于 K 最近邻算法,第一项属性Clump Thickness 丛厚度的所有概率分布大致相同,对于第 3、5、11、12.项数据,分布很整齐。所以从性能角度上讲,K 最近邻算法好一点。五、实验总结以上实验是对 Breast Cancer Wi

20、sconsin (Original) Data Set 数据做了一些分析,通过本次数据挖掘实验,重新学习了一下数据挖掘的相关概念和知识,理解了数据挖掘的用途和使用步骤,进一步学习了 WEKA 开源数据挖掘工具在数据挖掘学习中的使用方法。通过本次实验,也认识到了数据挖掘对大量的数据进行探索后,能揭示出其中隐藏着的规律性内容,并且由此进一步形成模型化的分析方法。可以建立整体或某个业务过程局部的不同类型的模型,可以描述发展的现状和规律性,而且可以用来预测当条件变化后可能发生的状况。这可以为后续的研究提供更好的支持依据。18本次实验进行比较顺利,使我对如何在 Weka 中进行分类分析有了更深刻的了解,对 Weka 中进行分类分析的决策树算法、贝叶斯算法、K 最近邻算法都有了进一步的理解,同时也深刻体会到数据预处理对于数据挖掘的重要性。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报