1、Weka,Weka简介线性回归(Linear Regression)分析决策树(Decision Tree)分析,weka的下载与安装,http:/www.cs.waikato.ac.nz/ml/weka/,weka界面介绍,命令行界面,执行简单操作,数据挖掘和分析,设计挖掘流程,类似于流程图,设计自己的实验模型,打开文件.ARFF (Attribute-Relation File Format),Weka支持的数据类型,NUMERIC包括integer和realNOMINAL是分类,需要直接列举出来如0,1STRING可包含任何字符串,适合文本数据的挖掘DATE日期时间yyyy-MM-dd
2、HH:mm:ss,线性回归(Linear Regression),从参数上看,可以看出公司的权重是最高的,因为个人偿付金额有限。接下来是over due fee,它的系数大于但接近1,可以推断,在实际案例中,penalty fee会大于它,但是和他成强相关。,这个是非监督性学习,聚类,和线性回归需要答案不同,这个无需答案,它会对数据根据距离进行分类,最后得出具有相似特性的不同的簇,这个是关联关系,可以发现不同属性之间的强相关规则。不过对于线性回归而言,因为因子是自变量,所以已经假定各因子间没有关联。,这个是根据结果对各个因子进行排行,可以删掉那些无关参数,原可视化窗口,调整pointsize后
3、,调整jitter后,调整jitter后,可以调整x和y轴,发现不同参数的关系,可以看出有penalty fee和over due fee的一般由公司支付,决策树(Decision Tree),第一期还款,还,未还,低信用,第二期还款,高信用,低信用,还,未还,Decision Tree (J48),J48 是weka的称呼 其实它就是C4.5它通过用Information Gain和Split Info的比值,避免了ID3会偏向于多个树分叉的缺点,因为Split Info是相对应节点的熵。会忽略不重要的分支,打开目的文件,决策树适合评价nominal数据,评价指标,kappa stastic
4、 当为1的时候,最好,以为着决策树有效,当为0的时候,和随机方法相同,当为-1的时候,不如随机方法TP:true positiveFP: false negativePrecision: TP除以TP+FPRecall: TP除以TP+FNF-measure: 一般情况下,假定贝塔值为1,他的公式是Precision*Recall除以Precision+Recall,可通过调整贝塔值来调整recall和precision的比重ROC: ROC曲线中auc面积比较重要,这个值越接近1,以为着正确预测相对来说越多,TP以及FP的说明,预测值,实际值,F-socre,因此F-measure越接近1,
5、说明模型越准确。此例中,false代表未违约,true代表违约,在true累下,F-measure的值为0,所以违约推算结果并不好,关联规则,如果要挖掘属性之间的相互关系,则需要用到关联规则,关联规则不能够处理连续数据,因此需要离散化,在filter中选中diseretize,并点击apply,数据类型会转化为nominal,然后点击associate选项卡,选中分析关联规则的算法,如Apriori,点击start,关联规则会挖掘比较久,这里要注意两个参数LowerBoundMinSupport,UpperBoundMinSupport和minMetric。 这两个对应的是support(M)
6、和confidence(N)的门槛。当support在lower和upper之间并且confidence大于minMetric的值会被筛选。可以通过提高他们的值来过滤掉一些弱的关联。N是代表要挖掘多少个关联关系。如此例,就是挖掘top10个关联关系,credit_card_max_number_of_overdue=(-inf-0.1 240 = credit_card_pastDue=(-inf-118.2 240 conf:(1)第一个就代表credit_card_max_number_of_overdue在数字0.1以下的100%的可能credit_card_pastDue的数额小于118,