ImageVerifierCode 换一换
格式:DOC , 页数:11 ,大小:335KB ,
资源ID:11528029      下载积分:10 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.docduoduo.com/d-11528029.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(R语言-决策树算法.doc)为本站会员(HR专家)主动上传,道客多多仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知道客多多(发送邮件至docduoduo@163.com或直接QQ联系客服),我们立即给予删除!

R语言-决策树算法.doc

1、决策树算法决策树定义首先,我们来谈谈什么是决策树。我们还是以鸢尾花为例子来说明这个问题。观察上图,我们判决鸢尾花的思考过程可以这么来描述:花瓣的长度小于2.4cm的是setosa(图中绿色的分类),长度大于1cm的呢?我们通过宽度来判别,宽度小于1.8cm的是versicolor(图中红色的分类),其余的就是virginica(图中黑色的分类)我们用图形来形象的展示我们的思考过程便得到了这么一棵决策树:这种从数据产生决策树的机器学习技术叫做决策树学习, 通俗点说就是决策树,说白了,这是一种依托于分类、训练上的预测树,根据已知预测、归类未来。前面我们介绍的k-近邻算法也可以完成很多分类任务,但是

2、他的缺点就是含义不清,说不清数据的内在逻辑,而决策树则很好地解决了这个问题,他十分好理解。从存储的角度来说,决策树解放了存储训练集的空间,毕竟与一棵树的存储空间相比,训练集的存储需求空间太大了。决策树的构建一、KD3的想法与实现下面我们就要来解决一个很重要的问题:如何构造一棵决策树?这涉及十分有趣的细节。先说说构造的基本步骤,一般来说,决策树的构造主要由两个阶段组成:第一阶段,生成树阶段。选取部分受训数据建立决策树,决策树是按广度优先建立直到每个叶节点包括相同的类标记为止。第二阶段,决策树修剪阶段。用剩余数据检验决策树,如果所建立的决策树不能正确回答所研究的问题,我们要对决策树进行修剪直到建立

3、一棵正确的决策树。这样在决策树每个内部节点处进行属性值的比较,在叶节点得到结论。从根节点到叶节点的一条路径就对应着一条规则,整棵决策树就对应着一组表达式规则。问题:我们如何确定起决定作用的划分变量。我还是用鸢尾花的例子来说这个问题思考的必要性。使用不同的思考方式,我们不难发现下面的决策树也是可以把鸢尾花分成3类的。为了找到决定性特征,划分出最佳结果,我们必须认真评估每个特征。通常划分的办法为信息增益和基尼不纯指数,对应的算法为C4.5和CART。关于信息增益和熵的定义烦请参阅百度百科,这里不再赘述。直接给出计算熵与信息增益的R代码:1、 计算给定数据集的熵calcent-function(da

4、ta)nument-length(data,1)key-rep(a,nument)for(i in 1:nument)keyi-datai,length(data)ent-0prob mudatx y z1 1 1 y2 1 1 y3 1 0 n4 0 1 n5 0 1 n计算熵 calcent(mudat)10.9709506熵越高,混合的数据也越多。得到熵之后,我们就可以按照获取最大信息增益的方法划分数据集2、 按照给定特征划分数据集为了简单起见,我们仅考虑标称数据(对于非标称数据,我们采用划分的办法把它们化成标称的即可)。R代码:split-function(data,variable,

5、value)result-data.frame()for(i in 1:length(data,1)if(datai,variable=value)result split(mudat,1,1)y z1 1 y2 1 y3 0 n split(mudat,1,0)y z4 1 n5 1 n3、选择最佳划分(基于熵增益)choose-function(data)numvariable-length(data1,)-1baseent-calcent(data)bestinfogain-0bestvariable-0infogain-0featlist-c()uniquevals-c()for(i

6、in1:numvariable)featlist-data,iuniquevals-unique(featlist)newent-0for(jin 1:length(uniquevals)subset-split(data,i,uniquevalsj)prob-length(subset,1)/length(data,1)newent-newent+prob*calcent(subset)infogainbestinfogain)bestinfogain-infogainbestvariable choose(mudat)1 1也就是告诉我们,将第一个变量值为1的分一类,变量值为0的分为另一类

7、,得到的划分是最好的。4、 递归构建决策树我们以脊椎动物数据集为例,这个例子来自数据挖掘导论,具体数据集已上传至百度云盘(点击可下载)我们先忽略建树细节,由于数据变量并不大,我们手动建一棵树先。animalschoose(animals)1 1这里变量1代表names,当然是一个很好的分类,但是意义就不大了,我们暂时的解决方案是删掉名字这一栏,继续做有:choose(animals)1 4我们继续重复这个步骤,直至choose分类为0或者没办法分类(比如sometimes live in water的动物)为止。得到最终分类树。给出分类逻辑图(遵循多数投票法):至于最后的建树画图涉及R的绘图包

8、ggplot,这里不再给出细节。下面我们使用著名数据集隐形眼镜数据集,利用上述的想法实现一下决策树预测隐形眼镜类型。这个例子来自机器学习实战,具体数据集已上传至百度云盘(点击可下载)。下面是一个十分简陋的建树程序(用R实现的),为了叙述方便,我们给隐形眼镜数据名称加上标称:age,prescript,astigmatic,tear rate.建树的R程序简要给出如下:bulidtree-function(data)if(choose(data)=0)print(finish)elseprint(choose(data)level-unique(data,choose(data)if(level

9、=1)print(finish)elsefor(i in1:length(level)data1bulidtree(lenses)1 41finish1 31 11finish1finish1 11finish1finish1 21finish1 11finish1finish1finish这棵树的解读有些麻烦,因为我们没有打印标签,(程序的简陋总会带来这样,那样的问题,欢迎帮忙完善),人工解读一下:首先利用4(tear rate)的特征reduce,normal将数据集划分为nolenses(至此完全分类),normal的情况下,根据3(astigmatic)的特征no,yes分数据集(划分

10、顺序与因子在数据表的出现顺序有关),no这条分支上选择1(age)的特征pre,young,presbyopic划分,前两个得到结果soft,最后一个利用剩下的一个特征划分完结(这里,由于split函数每次调用时,都删掉了一个特征,所以这里的1是实际第二个变量,这个在删除变量是靠前的情形时要注意),yes这条分支使用第2个变量prescript作为特征划分my ope划分完结,hyper利用age进一步划分,得到最终分类。画图说明逻辑:这里并没有进行剪枝,可能出现过拟合情形,我们暂不考虑剪枝的问题,下面的问题我想是更加迫切需要解决的:在选择根节点和各内部节点中的分支属性时,采用信息增益作为评价

11、标准。信息增益的缺点是倾向于选择取值较多的属性,在有些情况下这类属性可能不会提供太多有价值的信息。那么如何处理这些问题,C4.5算法不失为一个较好的解决方案。二、C4.5算法C4.5算法描述 :(1) 创建根节点N;(2) IF T都属于同一类C,则返回N为叶节点,标记为类C;(3) IF T_attributelist为空或T中所剩的样本数少于某给定值则返回N为叶节点,标记为T中出现最多的类;(4) FOR each T_attributelist中的属性计算信息增益率information gain ratio;(5) N的测试属性test_attribute=T_attributelis

12、t中具有最高信息增益率的属性;(6) IF测试属性为连续型则找到该属性的分割阀值;(7) FOR each 由节点N长出的新叶节点IF 该叶节点对应的样本子集T为空则分裂该叶节点生成一个新叶节点,将其标记为T中出现最多的类;ELSE在该叶节点上执行C4.5formtree(T,T_attributelist),对它继续分裂;(8) 计算每个节点的分类错误,进行树剪枝。以鸢尾花数据为例子,使用C4.5算法得到的分类树见下图:预测结果:观察预测 setosa versicolor virginicasetosa 50 0 0versicolor 0 49 1virginica 0 2 48下面我们

13、使用上面提到的隐形眼镜数据集,利用C4.5实现一下决策树预测隐形眼镜类型。得到结果:hard no lenses softhard 3 1 0no lenses 0 14 1soft 0 0 5看起来还不错,不是吗?(注:图片与预测表输出结果是已经经过剪枝的,所以可能和我们之前程序算出的有些不同)这里我们再次实现一下脊椎动物数据集的例子(使用C4.5),得到的分类逻辑图(R的直接输出结果):Give.Birth = no| Live.in.Water = no| | Can.Fly = no: reptiles (4.0/1.0)| | Can.Fly = yes: birds (3.0)|

14、Live.in.Water = sometimes: amphibians (4.0/2.0)| Live.in.Water = yes: fishes (2.0)Give.Birth = yes: mammals (7.0/1.0)这个分类与我们之前使用ID3分类得到的结果有所不同(搜索效率高了一些,准确率相当),使用信息增益倾向于多分类的贪心算法导致的不足在这里显示的淋漓尽致,更可以看出C4.5比ID3改进的地方绝不止能处理连续变量这一条。三、 CART算法CART算法描述(1) 创建根节点N;(2) 为N分配类别;(3) IF T都属于同一类别OR T中只剩一个样本则返回N为叶节点,为其

15、分配类别;(4) FOR each T_attributelist 中的属性执行该属性上的一个划分,计算此次划分的GINI系数;(5) N的测试属性test_attribute=T_attributelist中具有最小GINI系数的属性;(6) 划分T得T1、T2两个子集;(7) 调用cartformtree(T1);(8) 调用cartformtree(T2);以鸢尾花数据集为例,使用cart算法,得到决策树:要实现C4.5算法,R提供了一个程序包RWeka,J48函数可以实现决策树的构建,至于cart算法,R中的tree包提供函数tree来实现决策树的构建。下面我们来简要介绍他们:J48(

16、formula, data, subset, na.action,control = Weka_control(), options = NULL)tree(formula, data, weights, subset,na.action = na.pass, control = tree.control(nobs, .),method = recursive.partition,split = c(deviance, gini),model = FALSE, x = FALSE, y = TRUE, wts = TRUE, .)split为划分指标,分为deviance(偏差)和”gini”

17、(基尼)control涉及树剪枝的各种凶残细节,有兴趣的可以通过阅读帮助文档解决。而且剪枝是一个十分复杂的过程,剪枝也是视需求而定的,C4.5是事后剪枝,id3也就是我们试图实现的建树,也可以去手动剪枝。四、R内置命令实现我们之前的C4.5的建树R代码如下:鸢尾花一例:library(RWeka)library(party)oldpar=par(mar=c(3,3,1.5,1),mgp=c(1.5,0.5,0),cex=0.3)data(iris)m1-J48(SpeciesPetal.Width+Petal.Length,data=iris)m1table(iris$Species,pred

18、ict(m1)write_to_dot(m1)if(require(party,quietly=TRUE)plot(m1)隐形眼镜一例:lenses-read.csv(D:/R/data/lenses.csv,head=FALSE)m1-J48(V5.,data=lenses)m1table(lenses$V5,predict(m1)write_to_dot(m1)if(require(party,quietly=TRUE)plot(m1)CART算法的鸢尾花例:library(tree)oldpar=par(mar=c(3,3,1.5,1),mgp=c(1.5,0.5,0),cex=1.2)

19、ir.tr - tree(SpeciesPetal.Width+Petal.Length, iris)ir.trplot(ir.tr)text(ir.tr)对于决策树的构建,R中个人用的比较多的是函数包rpart中的函数rpart与prune。具体介绍在之前的博文R语言与机器学习中的回归方法学习笔记中有提及,这里不再赘述。决策树是一个弱分类器,我们从脊椎动物数据集就可以看到,没有办法完全分类,这时将弱学习器组合在一起的,根据多数投票法得到的强学习器是你可以进一步关注的,ada boost,bagging,random forest,这些内容你都可以了解一些(这些上一篇文章R语言与机器学习中的回归方法学习笔记有所涉猎,但也未详述)。Further Reading:关于C4.5的内容可以参阅yfx416的C4.5决策树关于随机森林等内容可以参阅LeftNotEasy的决策树模型组合之随机森林与GBDT关于学习器组合的内容可以参阅LeftNotEasy的模型组合之Boosting与Gradient Boosting

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报