收藏 分享(赏)

随机森林算法.doc

上传人:精品资料 文档编号:7929334 上传时间:2019-05-30 格式:DOC 页数:3 大小:39.47KB
下载 相关 举报
随机森林算法.doc_第1页
第1页 / 共3页
随机森林算法.doc_第2页
第2页 / 共3页
随机森林算法.doc_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

1、随机森林算法1. 算法简介随机森林由 LeoBreiman( 2001)提出,它通过自助法(bootstrap)重采样技术,从原始训练样本集 N 中有放回地重复随机抽取 k 个样本生成新的训练样本集合,然后根据自助样本集生成 k 个分类树组成随机森林,新数据的分类结果按分类树投票多少形成的分数而定。其实质是对决策树算法的一种改进,将多个决策树合并在一起,每棵树的建立依赖于一个独立抽取的样品,森林中的每棵树具有相同的分布,分类误差取决于每一棵树的分类能力和它们之间的相关性。特征选择采用随机的方法去分裂每一个节点,然后比较不同情况下产生的误差。能够检测到的内在估计误差、分类能力和相关性决定选择特征

2、的数目。单棵树的分类能力可能很小,但在随机产生大量的决策树后,一个测试样品可以通过每一棵树的分类结果经统计后选择最可能的分类。2. 算法原理决策树(decision tree)是一个树结构(可以是二叉树或非二叉树) 。其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。随机森林模型的基本思想是:首先,利用 bootstrap 抽样从原始训练集抽取k 个样本,且每个样本的样本容量都与原始训练集

3、一样;其次,对 k 个样本分别建立 k 个决策树模型,得到 k 种分类结果;最后,根据 k 种分类结果对每个记录进行投票表决决定其最终分类,如下图所示。在建立每一棵决策树的过程中,有两点需要注意采样与完全分裂。首先是两个随机采样的过程,random forest 对输入的数据要进行行、列的采样。对于行采样,采用有放回的方式,也就是在采样得到的样本集合中,可能有重复的样本。假设输入样本为 N 个,那么采样的样本也为 N 个。这样使得在训练的时候,每一棵树的输入样本都不是全部的样本,使得相对不容易出现 over-fitting。然后进行列采样,从 M 个 feature 中,选择 m 个(m =th),直到到达,某个叶子节点,并输出预测值。(2)重复执行(1)直到所有 t 棵树都输出了预测值。如果是分类问题,则输出为所有树中预测概率总和最大的那一个类,即对每个 c(j)的 p 进行累计;如果是回归问题,则输出为所有树的输出的平均值。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报