ImageVerifierCode 换一换
格式:PPT , 页数:38 ,大小:1.60MB ,
资源ID:766309      下载积分:10 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.docduoduo.com/d-766309.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(weka入门--简介-数据挖掘-个人整理.ppt)为本站会员(天天快乐)主动上传,道客多多仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知道客多多(发送邮件至docduoduo@163.com或直接QQ联系客服),我们立即给予删除!

weka入门--简介-数据挖掘-个人整理.ppt

1、Weka,Weka简介线性回归(Linear Regression)分析决策树(Decision Tree)分析,weka的下载与安装,http:/www.cs.waikato.ac.nz/ml/weka/,weka界面介绍,命令行界面,执行简单操作,数据挖掘和分析,设计挖掘流程,类似于流程图,设计自己的实验模型,打开文件.ARFF (Attribute-Relation File Format),Weka支持的数据类型,NUMERIC包括integer和realNOMINAL是分类,需要直接列举出来如0,1STRING可包含任何字符串,适合文本数据的挖掘DATE日期时间yyyy-MM-dd

2、HH:mm:ss,线性回归(Linear Regression),从参数上看,可以看出公司的权重是最高的,因为个人偿付金额有限。接下来是over due fee,它的系数大于但接近1,可以推断,在实际案例中,penalty fee会大于它,但是和他成强相关。,这个是非监督性学习,聚类,和线性回归需要答案不同,这个无需答案,它会对数据根据距离进行分类,最后得出具有相似特性的不同的簇,这个是关联关系,可以发现不同属性之间的强相关规则。不过对于线性回归而言,因为因子是自变量,所以已经假定各因子间没有关联。,这个是根据结果对各个因子进行排行,可以删掉那些无关参数,原可视化窗口,调整pointsize后

3、,调整jitter后,调整jitter后,可以调整x和y轴,发现不同参数的关系,可以看出有penalty fee和over due fee的一般由公司支付,决策树(Decision Tree),第一期还款,还,未还,低信用,第二期还款,高信用,低信用,还,未还,Decision Tree (J48),J48 是weka的称呼 其实它就是C4.5它通过用Information Gain和Split Info的比值,避免了ID3会偏向于多个树分叉的缺点,因为Split Info是相对应节点的熵。会忽略不重要的分支,打开目的文件,决策树适合评价nominal数据,评价指标,kappa stastic

4、 当为1的时候,最好,以为着决策树有效,当为0的时候,和随机方法相同,当为-1的时候,不如随机方法TP:true positiveFP: false negativePrecision: TP除以TP+FPRecall: TP除以TP+FNF-measure: 一般情况下,假定贝塔值为1,他的公式是Precision*Recall除以Precision+Recall,可通过调整贝塔值来调整recall和precision的比重ROC: ROC曲线中auc面积比较重要,这个值越接近1,以为着正确预测相对来说越多,TP以及FP的说明,预测值,实际值,F-socre,因此F-measure越接近1,

5、说明模型越准确。此例中,false代表未违约,true代表违约,在true累下,F-measure的值为0,所以违约推算结果并不好,关联规则,如果要挖掘属性之间的相互关系,则需要用到关联规则,关联规则不能够处理连续数据,因此需要离散化,在filter中选中diseretize,并点击apply,数据类型会转化为nominal,然后点击associate选项卡,选中分析关联规则的算法,如Apriori,点击start,关联规则会挖掘比较久,这里要注意两个参数LowerBoundMinSupport,UpperBoundMinSupport和minMetric。 这两个对应的是support(M)

6、和confidence(N)的门槛。当support在lower和upper之间并且confidence大于minMetric的值会被筛选。可以通过提高他们的值来过滤掉一些弱的关联。N是代表要挖掘多少个关联关系。如此例,就是挖掘top10个关联关系,credit_card_max_number_of_overdue=(-inf-0.1 240 = credit_card_pastDue=(-inf-118.2 240 conf:(1)第一个就代表credit_card_max_number_of_overdue在数字0.1以下的100%的可能credit_card_pastDue的数额小于118,

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报