weka数据挖掘教程.ppt-道客多多

资源描述

1、2018/7/4,1,数据挖掘工具-WEKA教程,WEKA简介.2数据集.11数据准备.24数据预处理36分类63聚类.184关联规则225选择属性244数据可视化253知识流界面275,2018/7/4,2,1、WEKA简介,WEKA的全名是怀卡托智能分析环境（Waikato Environment for Knowledge Analysis）weka也是新西兰的一种鸟名是新西兰怀卡托大学WEKA小组用Java开发的机器学习/数据挖掘开源软件。其源代码获取http:/www.cs.waikato.ac.nz/ml/weka/http:/ SIGKDD国际会议上，怀卡托大学的WEKA小组荣获

2、了数据挖掘和知识探索领域的最高服务奖， WEKA系统得到了广泛的认可，被誉为数据挖掘和机器学习历史上的里程碑，是现今最完备的数据挖掘工具之一。 WEKA的每月下载次数已超过万次。,2018/7/4,3,WEKA软件,主要特点它是集数据预处理、学习算法（分类、回归、聚类、关联分析）和评估方法等为一体的综合性数据挖掘工具。具有交互式可视化界面。提供算法学习比较环境通过其接口，可实现自己的数据挖掘算法,WEKA的界面,2018/7/4,4,探索环境,命令行环境,知识流环境,算法试验环境,2018/7/4,5,Explorer环境,2018/7/4,6,把“Explorer”界面分成8个区域,区域1的

3、几个选项卡是用来切换不同的挖掘任务面板。Preprocess（数据预处理）：选择和修改要处理的数据。 Classify（分类）：训练和测试分类或回归模型。 Cluster（聚类）：从数据中聚类。 Associate（关联分析）：从数据中学习关联规则。 Select Attributes（选择属性）：选择数据中最相关的属性。 Visualize（可视化）：查看数据的二维散布图。区域2是一些常用按钮。包括打开、编辑、保存数据及数据转换等功能。例如,我们可以把文件“bank-data.csv”另存为“bank-data.arff”。区域3中可以选择（Choose）某个筛选器（Filter），以实现

4、筛选数据或者对数据进行某种变换。数据预处理主要就利用它来实现。,2018/7/4,7,区域4展示了数据集的关系名、属性数和实例数等基本情况。区域5中列出了数据集的所有属性。勾选一些属性并“Remove”就可以删除它们，删除后还可以利用区域2的“Undo”按钮找回。区域5上方的一排按钮是用来实现快速勾选的。区域6中显示在区域5中选中的当前某个属性的摘要。摘要包括属性名（Name）、属性类型（Type）、缺失值（Missing）数及比例、不同值（Distinct ）数、唯一值（Unique）数及比例对于数值属性和标称属性，摘要的方式是不一样的。图中显示的是对数值属性“income”的摘要。数值属性

5、显示最小值（Minimum）、最大值（Maximum）、均值（Mean）和标准差（StdDev）标称属性显示每个不同值的计数,2018/7/4,8,区域7是区域5中选中属性的直方图。若数据集的最后一个属性（这是分类或回归任务的默认目标变量）是类标变量（例如“pep” ），直方图中的每个长方形就会按照该变量的比例分成不同颜色的段。要想换个分段的依据，在区域7上方的下拉框中选个不同的分类属性就可以了。下拉框里选上“No Class”或者一个数值属性会变成黑白的直方图。,2018/7/4,9,区域8窗口的底部区域，包括状态栏、log按钮和Weka鸟。状态栏（Status）显示一些信息让你知道正在做

6、什么。例如，如果 Explorer 正忙于装载一个文件，状态栏就会有通知。在状态栏中的任意位置右击鼠标将会出现一个小菜单。这个菜单给了你两个选项： Memory Information-显示WEKA可用的内存量。 Run garbage collector-强制运行Java垃圾回收器，搜索不再需要的内存空间并将之释放，从而可为新任务分配更多的内存。Log按钮可以查看以weka操作日志。右边的weka鸟在动的话，说明WEKA正在执行挖掘任务。,2018/7/4,10,KnowledgeFlow环境,2018/7/4,11,2、WEKA数据集,WEKA所处理的数据集是一个.arff文件的二维表,

7、2018/7/4,12,表格里的一个横行称作一个实例（Instance），相当于统计学中的一个样本，或者数据库中的一条记录。竖行称作一个属性（Attribute），相当于统计学中的一个变量，或者数据库中的一个字段。这样一个表格，或者叫数据集，在WEKA看来，呈现了属性之间的一种关系(Relation)。上图中一共有14个实例，5个属性，关系名称为“weather”。WEKA存储数据的格式是ARFF（Attribute-Relation File Format）文件，这是一种ASCII文本文件。上图所示的二维表格存储在如下的ARFF文件中。这也就是WEKA自带的“weather.arff”文件，

8、在WEKA安装目录的“data”子目录下可以找到。,relation weatherattribute outlook sunny, overcast, rainyattribute temperature realattribute humidity realattribute windy TRUE, FALSEattribute play yes, nodatasunny,85,85,FALSE,nosunny,80,90,TRUE,noovercast,83,86,FALSE,yesrainy,70,96,FALSE,yesrainy,68,80,FALSE,yesrainy,65,70

9、,TRUE,noovercast,64,65,TRUE,yessunny,72,95,FALSE,nosunny,69,70,FALSE,yesrainy,75,80,FALSE,yessunny,75,70,TRUE,yesovercast,72,90,TRUE,yesovercast,81,75,FALSE,yesrainy,71,91,TRUE,no,2018/7/4,14,WEKA数据文件,WEKA存储数据的格式是ARFF（Attribute-Relation File Format）文件这是一种ASCII文本文件文件的扩展名为.arff可以用写字板打开、编辑 ARFF文件文件中以“%

10、”开始的行是注释，WEKA将忽略这些行。除去注释后，整个ARFF文件可以分为两个部分:第一部分给出了头信息（Head information），包括了对关系的声明和对属性的声明。第二部分给出了数据信息（Data information），即数据集中给出的数据。从“data”标记开始，后面的就是数据信息了。,2018/7/4,16,关系声明,关系名称在ARFF文件的第一个有效行来定义，格式为： relation 是一个字符串。如果这个字符串包含空格，它必须加上引号（指英文标点的单引号或双引号）。,2018/7/4,17,属性声明,属性声明用一列以“attribute”开头的语句表示。数据集中的每

11、一个属性都有对应的“attribute”语句，来定义它的属性名称和数据类型（datatype）： attribute 其中必须以字母开头的字符串。和关系名称一样，如果这个字符串包含空格，它必须加上引号。属性声明语句的顺序很重要，它表明了该项属性在数据部分的位置。例如，“humidity”是第三个被声明的属性，这说明数据部分那些被逗号分开的列中，第2列（从第0列开始）数据 85 90 86 96 . 是相应的“humidity”值。其次，最后一个声明的属性被称作class属性，在分类或回归任务中，它是默认的目标变量。,2018/7/4,18,数据类型,WEKA支持四种数据类型numeric数值型

12、标称（nominal）型string字符串型date 日期和时间型还可以使用两个类型“integer”和“real”，但是WEKA把它们都当作“numeric”看待。注意：“integer”，“real”，“numeric”，“date”，“string”这些关键字是区分大小写的，而“relation”、“attribute ”和“data”则不区分。,2018/7/4,19,数值型属性数值型属性可以是整数或者实数，但WEKA把它们都当作实数看待。例如： attribute temperature real 字符串属性字符串属性可以包含任意的文本。例如： attribute LCC stri

13、ng,2018/7/4,20,标称属性标称属性由列出一系列可能的类别名称并放在花括号中：, , , . 。数据集中该属性的值只能是其中一种类别。例如属性声明： attribute outlook sunny, overcast, rainy 说明“outlook”属性有三种类别：“sunny”，“ overcast”和“rainy”。而数据集中每个实例对应的“outlook”值必是这三者之一。如果类别名称带有空格，仍需要将之放入引号中。,2018/7/4,21,日期和时间属性日期和时间属性统一用“date”类型表示，它的格式是： attribute date 其中是一个字符串，来规定该怎样解析

14、和显示日期或时间的格式，默认的字符串是ISO-8601所给的日期时间组合格式： “yyyy-MM-dd HH:mm:ss” 数据信息部分表达日期的字符串必须符合声明中规定的格式要求，例如： ATTRIBUTE timestamp DATE yyyy-MM-dd HH:mm:ss DATA 2011-05-03 12:59:55,2018/7/4,22,数据信息,数据信息中“data”标记独占一行，剩下的是各个实例的数据。每个实例占一行，实例的各属性值用逗号“,”隔开。如果某个属性的值是缺失值（missing value），用问号“?”表示，且这个问号不能省略。例如： data sunny,85

15、,85,FALSE,no ?,78,90,?,yes,2018/7/4,23,稀疏数据,有的时候数据集中含有大量的0值，这个时候用稀疏格式的数据存储更加省空间。稀疏格式是针对数据信息中某个对象的表示而言，不需要修改ARFF文件的其它部分。例如数据：data 0, X, 0, Y, class A 0, 0, W, 0, class B 用稀疏格式表达的话就是 data 1 X, 3 Y, 4 class A 2 W, 4 class B 注意：ARFF数据集最左端的属性列为第0列，因此，1 X表示X为第1列属性值。,2018/7/4,24,3、数据准备,数据获取直接使用ARFF文件数据。从C

16、SV，C4.5，binary等多种格式文件中导入。通过JDBC从SQL数据库中读取数据。从URL（Uniform Resource Locator）获取网络资源的数据。数据格式转换ARFF格式是WEKA支持得最好的文件格式。使用WEKA作数据挖掘，面临的第一个问题往往是数据不是ARFF格式的。WEKA还提供了对CSV文件的支持，而这种格式是被很多其他软件（比如Excel）所支持。可以利用WEKA将CSV文件格式转化成ARFF文件格式。,2018/7/4,25,数据资源,WEKA自带的数据集C:Program FilesWeka-3-6data网络数据资源 http:/archive.ics.u

17、ci.edu/ml/datasets.html,2018/7/4,26,.XLS .CSV .ARFF,Excel的XLS文件可以让多个二维表格放到不同的工作表（Sheet）中，只能把每个工作表存成不同的CSV文件。打开一个XLS文件并切换到需要转换的工作表，另存为CSV类型，点“确定”、“是”忽略提示即可完成操作。在WEKA中打开一个CSV类型文件，再另存为ARFF类型文件即可。,2018/7/4,27,打开Excel的Iris.xls文件,2018/7/4,28,2018/7/4,29,将iris.xls另存为iris.csv文件,2018/7/4,30,2018/7/4,31,2018/

18、7/4,32,在weka的Explorer中打开Iris.csv文件,2018/7/4,33,2018/7/4,34,将iris. csv另存为iris. arff 文件,2018/7/4,35,2018/7/4,36,4、数据预处理 preprocess,在WEKA中数据预处理工具称作筛选器（filters）可以定义筛选器来以各种方式对数据进行变换。Filter 一栏用于对各种筛选器进行必要的设置。Choose 按钮：点击这个按钮就可选择 WEKA 中的某个筛选器。选定一个筛选器后，它的名字和选项会显示在 Choose 按钮旁边的文本框中。,2018/7/4,37,载入数据,Explorer

19、的预处理（ preprocess ）页区域2的前4个按钮用来把数据载入WEKA： Open file. 打开一个对话框，允许你浏览本地文件系统上的数据文件。 Open URL. 请求一个存有数据的URL地址。 Open DB. 从数据库中读取数据。 Generate. 从一些数据生成器（DataGenerators）中生成人造数据。,2018/7/4,38,去除无用属性,通常对于数据挖掘任务来说，像ID这样的信息是无用的，可以将之删除。在区域5勾选属性“id”，并点击“Remove”。将新的数据集保存，并重新打开。,2018/7/4,39,数据离散化,有些算法(如关联分析)，只能处理标称型属

20、性，这时候就需要对数值型的属性进行离散化。对取值有限的数值型属性可通过修改.arff文件中该属性数据类型实现离散化。例如，在某数据集中的 “children”属性只有4个数值型取值：0，1，2，3。我们直接修改ARFF文件，把 attribute children numeric 改为 attribute children 0,1,2,3 就可以了。在“Explorer”中重新打开“bank-data.arff”，看看选中“children”属性后，区域6那里显示的“Type” 变成“Nominal”了。,2018/7/4,40,对取值较多的数值型属性，离散化可借助WEKA中名为“Discre

21、tize”的Filter来完成。在区域2中点“Choose”，出现一棵“Filter树”，逐级找到“weka.filters.unsupervised.attribute.Discretize”，点击。现在“Choose”旁边的文本框应该显示“Discretize -B 10 -M -0.1 -R first-last”。点击这个文本框会弹出新窗口以修改离散化的参数。,2018/7/4,41,在weka的Explorer中打开Iris.arff文件,2018/7/4,42,2018/7/4,43,2018/7/4,44,查看Iris数据集,2018/7/4,45,2018/7/4,46,查看

22、Iris数据属性分布图，选择属性,2018/7/4,47,2018/7/4,48,2018/7/4,49,通过观察发现petallength最能区分各类,2018/7/4,50,将属性petallength离散化,2018/7/4,51,2018/7/4,52,2018/7/4,53,2018/7/4,54,2018/7/4,55,2018/7/4,56,离散化成10段数据,等频离散化,离散化成10段数据,2018/7/4,57,2018/7/4,58,2018/7/4,59,2018/7/4,60,2018/7/4,61,查看离散化后的Iris数据集,2018/7/4,62,2018/7/4

23、,63,5、分类 Classify,WEKA把分类(Classification)和回归(Regression)都放在“Classify”选项卡中。在这两个数据挖掘任务中，都有一个目标属性（类别属性，输出变量）。我们希望根据一个WEKA实例的一组特征属性（输入变量），对目标属性进行分类预测。为了实现这一目的，我们需要有一个训练数据集，这个数据集中每个实例的输入和输出都是已知的。观察训练集中的实例，可以建立起预测的分类/回归模型。有了这个模型，就可以对新的未知实例进行分类预测。衡量模型的好坏主要在于预测的准确程度。,2018/7/4,64,WEKA中的典型分类算法,Bayes: 贝叶斯分类器B

24、ayesNet: 贝叶斯信念网络NaveBayes: 朴素贝叶斯网络Functions: 人工神经网络和支持向量机MultilayerPerceptron: 多层前馈人工神经网络SMO: 支持向量机（采用顺序最优化学习方法）Lazy: 基于实例的分类器IB1: 1-最近邻分类器IBk: k-最近邻分类器,2018/7/4,65,选择分类算法,Meta: 组合方法AdaBoostM1: AdaBoost M1方法Bagging: 袋装方法Rules: 基于规则的分类器JRip: 直接方法Ripper算法Part: 间接方法从J48产生的决策树抽取规则Trees: 决策树分类器Id3: ID3决策

25、树学习算法（不支持连续属性）J48: C4.5决策树学习算法（第8版本）REPTree: 使用降低错误剪枝的决策树学习算法RandomTree: 基于决策树的组合方法,2018/7/4,66,选择分类算法,2018/7/4,67,2018/7/4,68,选择模型评估方法,四种方法Using training set 使用训练集评估Supplied test set 使用测试集评估Cross-validation 交叉验证设置折数FoldsPercentage split 保持方法。使用一定比例的训练实例作评估设置训练实例的百分比,2018/7/4,69,选择模型评估方法,2018/7/4,70

26、,Output model. 输出基于整个训练集的分类模型，从而模型可以被查看，可视化等。该选项默认选中。Output per-class stats. 输出每个class的准确度/反馈率（precision/recall）和正确/错误（true/false）的统计量。该选项默认选中。Output evaluation measures. 输出熵估计度量。该选项默认没有选中。Output confusion matrix. 输出分类器预测结果的混淆矩阵。该选项默认选中。Store predictions for visualization. 记录分类器的预测结果使得它们能被可视化表示。Outp

27、ut predictions. 输出测试数据的预测结果。注意在交叉验证时，实例的编号不代表它在数据集中的位置。Cost-sensitive evaluation. 误差将根据一个价值矩阵来估计。Set 按钮用来指定价值矩阵。Random seed for xval / % Split. 指定一个随即种子，当出于评价的目的需要分割数据时，它用来随机化数据。,点击More options 按钮可以设置更多的测试选项：,2018/7/4,71,文字结果分析,单击start按钮，Classifier output窗口显示的文字结果信息：Run information 运行信息Classifier mo

28、del (full training set) 使用全部训练数据构造的分类模型Summary 针对训练/检验集的预测效果汇总。Detailed Accuracy By Class 对每个类的预测准确度的详细描述。Confusion Matrix 混淆矩阵，其中矩阵的行是实际的类，矩阵的列是预测得到的类，矩阵元素就是相应测试样本的个数。,2018/7/4,72,文字结果,2018/7/4,73,主要指标,Correctly Classified Instances 正确分类率Incorrectly Classified Instances 错误分类率Kappa statistic Kappa 统

29、计数据Mean absolute error 平均绝对误差Root mean squared error 根均方差Relative absolute error 相对绝对误差Root relative squared error 相对平方根误差TP Rate(bad/good) 正确肯定率FP Rate(bad/good) 错误肯定率Precision(bad/good) 精确率Recall(bad/good) 反馈率F-Measure(bad/good) F测量Time taken to build model 建模花费的时间,2018/7/4,74,输出图形结果,鼠标右键,2018/7/4

30、,75,View in main window(查看主窗口)。在主窗口中查看输出结果。View in separate window(查看不同的窗口)。打开一个独立的新窗口来查看结果。Save result buffer(保存结果的缓冲区)。弹出对话框来保存输出结果的文本文件。Load model(下载模式)。从二进制文件中载入一个预训练模式对象。Save model (保存模式)。将一个模式对象保存到二进制文件中，也就是保存在JAVA 的串行对象格式中。Re-evaluate model on current test set(对当前测试集进行重新评估)。通过已建立的模式，并利用Suppli

31、ed test set(提供的测试集) 选项下的Set.按钮来测试指定的数据集。,2018/7/4,76,Visualize classifier errors(可视化分类器错误)。弹出一个可视化窗口来显示分类器的结果图。其中，正确分类的实例用叉表示，然而不正确分类的实例则是以小正方形来表示的。Visualize tree(树的可视化)。如果可能的话，则弹出一个图形化的界面来描述分类器模型的结构(这只有一部分分类器才有的)。右键单击空白区域弹出一个菜单，在面板中拖动鼠标并单击，就可以看见每个节点对应的训练实例。Visualize margin curve(边际曲线的可视化)。产生一个散点图来描

32、述预测边际的情况。边际被定义为预测为真实值的概率和预测为真实值之外的其它某类的最高概率之差。例如加速算法通过增加训练数据集的边际来更好地完成测试数据集的任务。,2018/7/4,77,Visualize threshold curve(阈曲线的可视化)。产生一个散点图来描述预测中的权衡问题，其中权衡是通过改变类之间阈值来获取的。例如，缺省阈值为0.5，一个实例预测为positive的概率必须要大于0.5，因为0.5时实例正好预测为positive。而且图表可以用来对精确率/反馈率权衡进行可视化，如ROC 曲线分析(正确的正比率和错误的正比率)和其它的曲线。Visualize cost curv

33、e(成本曲线的可视化)。产生一个散点图，来确切描述期望成本，正如Drummond 和Holte 所描述的一样。,2018/7/4,78,Visualize classifier errors. 可视化分类错误实际类与预测类的散布图。其中正确分类的结果用叉表示，分错的结果用方框表示。,2018/7/4,79,Visualize tree可视化树,2018/7/4,80,2018/7/4,81,2018/7/4,82,可视化边际曲线（Visualize margin curve）,创建一个散点图来显示预测边际值。四个变量Margin: 预测边际值Instance_number: 检验实例的序号C

34、urrent: 具有当前预测边际值的实例个数Cumulative: 小于或等于预测边际值的实例个数（与Instance_number一致）,2018/7/4,83,2018/7/4,84,单击8号检验实例，显示该点的边际值为0.5，有7个实例的边际值小于0.5。,2018/7/4,85,可视化阈值曲线（基于类）,阈值是将检验实例归为当前类的最小概率，使用点的颜色表示阈值曲线上的每个点通过改变阈值的大小生成可以进行ROC分析X轴选假正率Y轴选真正率,2018/7/4,86,2018/7/4,87,2018/7/4,88,ROC曲线,ROC曲线（Receiver Operating Charac

35、teeristic Curve）是显示Classification模型真正率和假正率之间折中的一种图形化方法。假设样本可分为正负两类，解读ROC图的一些概念定义:真正（True Positive , TP），被模型预测为正的正样本假负（False Negative , FN）被模型预测为负的正样本假正（False Positive , FP）被模型预测为正的负样本真负（True Negative , TN）被模型预测为负的负样本真正率（True Positive Rate , TPR）或灵敏度（sensitivity） TPR = TP /（TP + FN）正样本预测结果数 / 正样本实

36、际数假正率（False Positive Rate , FPR） FPR = FP /（FP + TN）被预测为正的负样本结果数 /负样本实际数 ( TPR=1,FPR=0 ) 是理想模型一个好的分类模型应该尽可能靠近图形的左上角。,2018/7/4,89,IRIS分类示例,2018/7/4,90,在weka的Explorer中打开Iris.arff文件,2018/7/4,91,在weka的Explorer中打开Iris.arff文件,2018/7/4,92,2018/7/4,93,选择分类（Classify）数据挖掘任务,2018/7/4,94,选择分类算法,2018/7/4,95,选择

37、决策树算法Trees-J48,2018/7/4,96,设置相关参数,2018/7/4,97,2018/7/4,98,2018/7/4,99,选择检验方法,2018/7/4,100,2018/7/4,101,2018/7/4,102,2018/7/4,103,2018/7/4,104,2018/7/4,105,执行分类算法，建立决策树模型,2018/7/4,106,查看算法执行的输出信息,2018/7/4,107,2018/7/4,108,查看决策树分类模型,2018/7/4,109,2018/7/4,110,2018/7/4,111,查看分类错误散点图,2018/7/4,112,2018/7/

38、4,113,选择其他的分类算法,2018/7/4,114,2018/7/4,115,选择贝叶斯分类算法bayes-Naive bayes,2018/7/4,116,选择检验方法,2018/7/4,117,执行分类算法，建立贝叶斯模型,2018/7/4,118,进行ROC分析,2018/7/4,119,2018/7/4,120,2018/7/4,121,选择其他的分类算法,2018/7/4,122,选择决策树用户自分类法trees-UserClssifier,2018/7/4,123,选择检验方法,2018/7/4,124,执行算法,2018/7/4,125,2018/7/4,126,数据散点图

39、,2018/7/4,127,但击鼠标，确定分类边界,2018/7/4,128,查看相应的分类树,2018/7/4,129,预测指定属性值,2018/7/4,130,选择预测属性,2018/7/4,131,2018/7/4,132,选择算法,2018/7/4,133,2018/7/4,134,执行算法,2018/7/4,135,观察输出信息,2018/7/4,136,2018/7/4,137,查看分类错误散点图,2018/7/4,138,2018/7/4,139,点击实例，察看详细信息,2018/7/4,140,该实例petallength的实际值为5.1，预测值为5.89,2018/7/4,1

40、41,训练BANK-DATA分类模型示例,bank-data数据各属性的含义如下： id: a unique identification number age: age of customer in years (numeric) sex: MALE / FEMALE region:inner_city/rural/suburban/town income: income of customer (numeric) married:is the customer married (YES/NO) children: number of children (numeric) car: does

41、 the customer own a car (YES/NO) save_act: does the customer have a saving account (YES/NO) current_act:does the customer have a current account (YES/NO) mortgage: does the customer have a mortgage (YES/NO) pep （目标变量） : did the customer buy a PEP (Personal Equity Plan，个人参股计划) after the last mailing

42、(YES/NO),2018/7/4,142,浏览bank-data. xls数据,2018/7/4,143,数据准备将数据另存为.csv格式,2018/7/4,144,2018/7/4,145,数据准备在WEKA中打开bank-data. csv,2018/7/4,146,2018/7/4,147,2018/7/4,148,2018/7/4,149,数据准备在WEKA中浏览数据,2018/7/4,150,2018/7/4,151,数据准备将数据另存为.arff格式,2018/7/4,152,在写字板中浏览bank-data.arff文件,2018/7/4,153,2018/7/4,154,数据

43、预处理,去除无用属性通常对于数据挖掘任务来说，ID这样的信息是无用的，我们将之删除。勾选属性“id”，并点击“Remove”。将新的数据集保存为“bank-data.arff”，重新打开。离散化在这个数据集中有3个变量是数值型的，分别是“age”，“income”和“children”。其中“children”只有4个取值：0，1，2，3。这时我们直接修改ARFF文件，把 attribute children numeric 改为 attribute children 0,1,2,3 就可以了。在“Explorer”中重新打开“bank-data.arff”，看看选中“children”

44、属性后，显示的“Type” 变成“Nominal”了。,2018/7/4,155,数据预处理,“age”和“income”的离散化可借助WEKA中名为“Discretize”的Filter来完成。点“Choose”，出现一棵“Filter树”，逐级找到“weka.filters.unsupervised.attribute.Discretize”，点击。现在“Choose”旁边的文本框应该显示“Discretize -B 10 -M -0.1 -R first-last”。点击这个文本框会弹出新窗口以修改离散化的参数。我们不打算对所有的属性离散化，只是针对对第1个和第4个属性（见属性名左边

45、的数字），故把attributeIndices右边改成“1,4”。计划把这两个属性都分成3段，于是把“bins”改成“3”。其它框里不用更改。点“OK”回到“Explorer”，可以看到“age”和“income”已经被离散化成分类型的属性。若想放弃离散化可以点“Undo”。经过上述操作得到的数据集我们保存为bank-data-final.arff。,2018/7/4,156,数据预处理-去除无用属性,2018/7/4,157,2018/7/4,158,数据预处理children数据离散化,2018/7/4,159,数据预处理children数据离散化,用写字板打开bank-data.arff

46、文件,2018/7/4,160,2018/7/4,161,在WEKA中重新打开bank-data.arff文件。,2018/7/4,162,2018/7/4,163,观察 children属性。,2018/7/4,164,数据预处理离散化“age”和“income”,2018/7/4,165,数据预处理数据离散化,2018/7/4,166,2018/7/4,167,2018/7/4,168,2018/7/4,169,2018/7/4,170,2018/7/4,171,2018/7/4,172,在写字板中重新观察bank-data.arff数据,2018/7/4,173,训练分类模型,2018/

47、7/4,174,2018/7/4,175,2018/7/4,176,评估分类模型,2018/7/4,177,选择不同的分类算法或参数,2018/7/4,178,2018/7/4,179,选择模型,2018/7/4,180,2018/7/4,181,2018/7/4,182,2018/7/4,183,2018/7/4,184,6、聚类 cluster,聚类分析是把对象分配给各个簇，使同簇中的对象相似，而不同簇间的对象相异。WEKA在“Explorer”界面的“Cluster”提供聚类分析工具,选择聚类算法,2018/7/4,185,WEKA中的聚类算法,2018/7/4,186,主要算法包括：SimpleKMeans 支持分类属性的K均值算法DBScan 支持分类属性的基于密度的算法EM 基于混合模型的聚类算法FathestFirst K中心点算法OPTICS 基于密度的另一个算法Cobweb 概念聚类算法sIB 基于信息论的聚类算法，不支持分类属性XMeans 能自动确定簇个数的扩展K均值算法，不支持分类属性,

展开阅读全文