weka入门--简介-数据挖掘-个人整理.ppt-道客多多

资源描述

1、Weka,Weka简介线性回归（Linear Regression）分析决策树（Decision Tree）分析,weka的下载与安装,http:/www.cs.waikato.ac.nz/ml/weka/,weka界面介绍,命令行界面，执行简单操作,数据挖掘和分析,设计挖掘流程，类似于流程图,设计自己的实验模型,打开文件.ARFF (Attribute-Relation File Format),Weka支持的数据类型,NUMERIC包括integer和realNOMINAL是分类，需要直接列举出来如0，1STRING可包含任何字符串，适合文本数据的挖掘DATE日期时间yyyy-MM-dd

2、HH:mm:ss,线性回归（Linear Regression）,从参数上看，可以看出公司的权重是最高的，因为个人偿付金额有限。接下来是over due fee，它的系数大于但接近1，可以推断，在实际案例中，penalty fee会大于它，但是和他成强相关。,这个是非监督性学习，聚类，和线性回归需要答案不同，这个无需答案，它会对数据根据距离进行分类，最后得出具有相似特性的不同的簇,这个是关联关系，可以发现不同属性之间的强相关规则。不过对于线性回归而言，因为因子是自变量，所以已经假定各因子间没有关联。,这个是根据结果对各个因子进行排行，可以删掉那些无关参数,原可视化窗口,调整pointsize后

3、,调整jitter后,调整jitter后,可以调整x和y轴，发现不同参数的关系,可以看出有penalty fee和over due fee的一般由公司支付,决策树（Decision Tree）,第一期还款,还,未还,低信用,第二期还款,高信用,低信用,还,未还,Decision Tree (J48),J48 是weka的称呼其实它就是C4.5它通过用Information Gain和Split Info的比值，避免了ID3会偏向于多个树分叉的缺点，因为Split Info是相对应节点的熵。会忽略不重要的分支,打开目的文件，决策树适合评价nominal数据,评价指标,kappa stastic

4、当为1的时候，最好，以为着决策树有效，当为0的时候，和随机方法相同，当为-1的时候，不如随机方法TP：true positiveFP: false negativePrecision: TP除以TP+FPRecall: TP除以TP+FNF-measure: 一般情况下，假定贝塔值为1，他的公式是Precision*Recall除以Precision+Recall，可通过调整贝塔值来调整recall和precision的比重ROC: ROC曲线中auc面积比较重要，这个值越接近1，以为着正确预测相对来说越多,TP以及FP的说明,预测值,实际值,F-socre,因此F-measure越接近1，

5、说明模型越准确。此例中，false代表未违约，true代表违约，在true累下，F-measure的值为0，所以违约推算结果并不好,关联规则,如果要挖掘属性之间的相互关系，则需要用到关联规则，关联规则不能够处理连续数据，因此需要离散化,在filter中选中diseretize，并点击apply，数据类型会转化为nominal,然后点击associate选项卡，选中分析关联规则的算法，如Apriori,点击start，关联规则会挖掘比较久,这里要注意两个参数LowerBoundMinSupport,UpperBoundMinSupport和minMetric。这两个对应的是support（M）

6、和confidence（N）的门槛。当support在lower和upper之间并且confidence大于minMetric的值会被筛选。可以通过提高他们的值来过滤掉一些弱的关联。N是代表要挖掘多少个关联关系。如此例，就是挖掘top10个关联关系,credit_card_max_number_of_overdue=(-inf-0.1 240 = credit_card_pastDue=(-inf-118.2 240 conf:(1)第一个就代表credit_card_max_number_of_overdue在数字0.1以下的100%的可能credit_card_pastDue的数额小于118,

展开阅读全文