收藏 分享(赏)

weka入门--简介-数据挖掘-个人整理.ppt

上传人:天天快乐 文档编号:766309 上传时间:2018-04-22 格式:PPT 页数:38 大小:1.60MB
下载 相关 举报
weka入门--简介-数据挖掘-个人整理.ppt_第1页
第1页 / 共38页
weka入门--简介-数据挖掘-个人整理.ppt_第2页
第2页 / 共38页
weka入门--简介-数据挖掘-个人整理.ppt_第3页
第3页 / 共38页
weka入门--简介-数据挖掘-个人整理.ppt_第4页
第4页 / 共38页
weka入门--简介-数据挖掘-个人整理.ppt_第5页
第5页 / 共38页
点击查看更多>>
资源描述

1、Weka,Weka简介线性回归(Linear Regression)分析决策树(Decision Tree)分析,weka的下载与安装,http:/www.cs.waikato.ac.nz/ml/weka/,weka界面介绍,命令行界面,执行简单操作,数据挖掘和分析,设计挖掘流程,类似于流程图,设计自己的实验模型,打开文件.ARFF (Attribute-Relation File Format),Weka支持的数据类型,NUMERIC包括integer和realNOMINAL是分类,需要直接列举出来如0,1STRING可包含任何字符串,适合文本数据的挖掘DATE日期时间yyyy-MM-dd

2、HH:mm:ss,线性回归(Linear Regression),从参数上看,可以看出公司的权重是最高的,因为个人偿付金额有限。接下来是over due fee,它的系数大于但接近1,可以推断,在实际案例中,penalty fee会大于它,但是和他成强相关。,这个是非监督性学习,聚类,和线性回归需要答案不同,这个无需答案,它会对数据根据距离进行分类,最后得出具有相似特性的不同的簇,这个是关联关系,可以发现不同属性之间的强相关规则。不过对于线性回归而言,因为因子是自变量,所以已经假定各因子间没有关联。,这个是根据结果对各个因子进行排行,可以删掉那些无关参数,原可视化窗口,调整pointsize后

3、,调整jitter后,调整jitter后,可以调整x和y轴,发现不同参数的关系,可以看出有penalty fee和over due fee的一般由公司支付,决策树(Decision Tree),第一期还款,还,未还,低信用,第二期还款,高信用,低信用,还,未还,Decision Tree (J48),J48 是weka的称呼 其实它就是C4.5它通过用Information Gain和Split Info的比值,避免了ID3会偏向于多个树分叉的缺点,因为Split Info是相对应节点的熵。会忽略不重要的分支,打开目的文件,决策树适合评价nominal数据,评价指标,kappa stastic

4、 当为1的时候,最好,以为着决策树有效,当为0的时候,和随机方法相同,当为-1的时候,不如随机方法TP:true positiveFP: false negativePrecision: TP除以TP+FPRecall: TP除以TP+FNF-measure: 一般情况下,假定贝塔值为1,他的公式是Precision*Recall除以Precision+Recall,可通过调整贝塔值来调整recall和precision的比重ROC: ROC曲线中auc面积比较重要,这个值越接近1,以为着正确预测相对来说越多,TP以及FP的说明,预测值,实际值,F-socre,因此F-measure越接近1,

5、说明模型越准确。此例中,false代表未违约,true代表违约,在true累下,F-measure的值为0,所以违约推算结果并不好,关联规则,如果要挖掘属性之间的相互关系,则需要用到关联规则,关联规则不能够处理连续数据,因此需要离散化,在filter中选中diseretize,并点击apply,数据类型会转化为nominal,然后点击associate选项卡,选中分析关联规则的算法,如Apriori,点击start,关联规则会挖掘比较久,这里要注意两个参数LowerBoundMinSupport,UpperBoundMinSupport和minMetric。 这两个对应的是support(M)

6、和confidence(N)的门槛。当support在lower和upper之间并且confidence大于minMetric的值会被筛选。可以通过提高他们的值来过滤掉一些弱的关联。N是代表要挖掘多少个关联关系。如此例,就是挖掘top10个关联关系,credit_card_max_number_of_overdue=(-inf-0.1 240 = credit_card_pastDue=(-inf-118.2 240 conf:(1)第一个就代表credit_card_max_number_of_overdue在数字0.1以下的100%的可能credit_card_pastDue的数额小于118,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 经营企划

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报