用gbm包来提升决策树能力(一).wps-道客多多

资源描述

1、用gbm包来提升决策树能力中国有句老话：三个臭皮匠，顶个诸葛亮。这个说法至少在变形金刚中得到了体现，没有组合之前的大力神只是五个可以被柱子哥随手秒掉工地苦力。但组合之后却是威力大增。在机器学习领域也是如此，一堆能力一般的“弱学习器”也能组合成一个“强学习器”。前篇文章提到的随机森林就是一种组合学习的方法，本文要说的是另一类组合金刚：提升方法(Boosting) 。提升方法是一大类集成分类学习的统称。它用不同的权重将基学习器进行线性组合，使表现优秀的学习器得到重用。在 R语言中gbm包就是用来实现一般提升方法的扩展包。根基学习器优方法的不同，提升方法也有种不同的形。提升方法Ada

2、Boost 它是一种统重要的Boost 法，在学习一个本一个权重，本权重一。在一后，增学习本的权重，这使得本的重要性来，在进行了N后，将得到N个currency1的学习器。后将它“组合来得到一个的fi。 fl 提升方法Gradient Boosting fl 提升法来不是，但“ 线性以类就”了。一线性是到一组使得。如只用一来线一有大来，此就可以用来，以可在fi中这个。同的，fl 提升是根 fi ，之后一个基学习器来，基学习器是在fl 方少。将基学习器权重 (学习 ) 来的fi进行线性组合形成的fi。这就可以到一个使的到

3、的fi。在基学习器可以使用方法此就称之随机fl 提升法stochastic gradient boosting 。在gbm包中，用的是决策树基学习器，重要的如：的形 (distribution) (n.trees) 学习 (shrinkage) (bag.fraction) 决策树的 (interaction.depth)的形 ” ，分类一般 bernoulli分，可以 gaussian分。学习方，“ 子得大” ，以学习是，但是子的话，就得增，也就是的要大能使fi到优，这也大了。gbm 的验法则是 shrinkage 在0.01-0.

4、001之， n.trees 在3000-10000之。 “用mlbench包中的集来一gbm包的使用。其中响变 diabetes，即病人的糖尿病诊断是阳性还是阴性。 # 载包：library(gbm)data(PimaIndiansDiabetes2,package=mlbench)# 将响变转 0-1格：data - PimaIndiansDiabetes2data$diabetes- as.numeric(data$diabetes)data -transform(data,diabetes=diabetes-1)# 使用gbm ：model -gbm(diabetes.,dat

5、a=data,shrinkage=0.01, distribution=bernoulli,cv.folds=5,n.trees=3000,verbose=F)# 用交叉检验确佳：best.iter - gbm.perf(model,method=cv)# 观察变的重要程：summary(model,best.iter)# 变的边际效：plot.gbm(model,1,best.iter)# 用caret包观察预测精：library(caret)data - PimaIndiansDiabetes2fitControl -trainControl(method = “cv“, num

6、ber = 5,returnResamp = “all“)model2 -train(diabetes., data=data,method=gbm,distribution=bernoulli,trControl = fitControl,verbose=F,tuneGrid=data.frame(.n.trees=best.iter,.shrinkage=0.01,.interaction.depth=1)model2Accuracy Kappa Accuracy SD Kappa SD 0.78 0.504 0.0357 0.0702 观察到gbm到800左右优，得到的预测正确 0.78，这个随机森林的正确还要略高一。

展开阅读全文