一、简介

Random Forest总结

RF = Bagging + Decision Tree

随机：数据采样随机，特征选择随机

森林：多个决策树并行放在一起

几个误区：

不是每棵树随机选择特征，而是每一个结点都随机选择固定数目的特征
采样。样本数量为N，采样数量也为N，但是采取的是有放回的采样（bootstrap）。
组合算法。训练结束之后，对新数据进行预测的时候，会让新数据在所有得到的M个决策树上进行预测，最后对结果进行平均或者进行投票。最早的算法是投票：每个树对每一类投票，sklearn的算法是对各个树进行了平均取结果。
分类和回归。随机森林可以做分类，也可以做回归，但是很显然（实践上也是），做回归有点不靠谱，所以研究随机森林回归意思不大。
假设总共有1-6个特征，如果第一个节点随机选出了1、2、3这三个特征，然后根据信息增益保留了1；然后第二个节点随机选择特征是在2-6选择还是1-6中选择呢？答案还是从1-6中选择增益最大的特征

1.RF的算法的流程？

　　首先我们来复习一下之前介绍过的两个机器学习模型：Bagging和Decision Tree。Bagging是通过bootstrap的方式，从原始的数据集D中得到新的D^；然后再使用一些base algorithm对每个D^都得到相应的gt；最后将所有的gt通过投票uniform的形式组合成一个G，G即为我们最终得到的模型。Decision Tree是通过递归形式，利用分支条件，将原始数据集D切割成一个个子树结构，长成一棵完整的树形结构。Decision Tree最终得到的G(x)是由相应的分支条件b(x)和分支树Gc(x)递归组成。

　　Bagging和Decison Tree算法各自有一个很重要的特点。Bagging具有减少不同gt的方差variance的特点。这是因为Bagging采用投票的形式，将所有gt uniform结合起来，起到了求平均的作用，从而降低variance。而Decision Tree具有增大不同gt的方差variance的特点。这是因为Decision Tree每次切割的方式不同，而且分支包含的样本数在逐渐减少，所以它对不同的资料D会比较敏感一些，从而不同的D会得到比较大的variance。
　　所以说，Bagging能减小variance，而Decision Tree能增大variance。如果把两者结合起来，能否发挥各自的优势，起到优势互补的作用呢？这就是我们接下来将要讨论的aggregation of aggregation，即使用Bagging的方式把众多的Decision Tree进行uniform结合起来。这种算法就叫做随机森林（Random Forest），它将完全长成的C&RT决策树通过bagging的形式结合起来，最终得到一个庞大的决策模型。

　　Random Forest算法流程图如下所示：

（1）随机抽取资料

　　以上是基本的Random Forest算法，我们再来看一下如何让Random Forest中决策树的结构更有多样性。Bagging中，通过bootstrap的方法得到不同于D的D’，使用这些随机抽取的资料得到不同的gt。

（2）随机抽取特征

【1】随机抽取特征

　　例如，原来有100个特征，现在只从中随机选取30个来构成决策树，那么每一轮得到的树都由不同的30个特征构成，每棵树都不一样。假设原来样本维度是d，则只选择其中的d’（d’小于d）个维度来建立决策树结构。这类似是一种从d维到d’维的特征转换，相当于是从高维到低维的投影，也就是说d’维z空间其实就是d维x空间的一个随机子空间（subspace）。通常情况下，d’远小于d，从而保证算法更有效率。Random Forest算法的作者建议在构建C&RT每个分支b(x)的时候，都可以重新选择子特征来训练，从而得到更具有多样性的决策树。【具体怎么选特征看第三节】

　　所以说，这种增强的Random Forest算法增加了random-subspace。

Random Forest总结

【2】组合特征　　

　　上面我们讲的是随机抽取特征，除此之外，还可以将现有的特征x，通过数组p进行线性组合，来保持多样性：

Random Forest总结

　　这种方法使每次分支得到的不再是单一的子特征集合，而是子特征的线性组合（权重不为1）。好比在二维平面上不止得到水平线和垂直线，也能得到各种斜线。这种做法使子特征选择更加多样性。值得注意的是，不同分支i下的pi是不同的，而且向量pi中大部分元素为零，因为我们选择的只是一部分特征，这是一种低维映射。

Random Forest总结

　　所以，这里的Random Forest算法又有增强，由原来的random-subspace变成了random-combination。顺便提一下，这里的random-combination类似于perceptron模型。

Random Forest总结

2.Out-of-Bag Estimate

　　上一部分我们已经介绍了Random Forest算法，而Random Forest算法重要的一点就是Bagging。接下来将继续探讨bagging中的bootstrap机制到底蕴含了哪些可以为我们所用的东西。

　　通过bootstrap得到新的样本集D'，再由D'训练不同的gt。我们知道D'中包含了原样本集D中的一些样本，但也有些样本没有涵盖进去。如下表所示，不同的gt下，红色的*表示在中没有这些样本。例如对g1来说，(x2,y2)和(x3,y4)没有包含进去，对g2来说,(x1,y1)和(x2,y2)没有包含进去,等等。每个gt中，红色*表示的样本被称为out-of-bag(OOB) example。

　　首先，我们来计算OOB样本到底有多少。假设bootstrap的数量N'=N，那么某个样本(xn,yn)是OOB的概率是：

　　其中，e是自然对数，N是原样本集的数量。由上述推导可得，每个gt中，OOB数目大约是1/e*N ，即大约有三分之一的样本没有在bootstrap中被抽到。

　　然后，我们将OOB与之前介绍的Validation进行对比：

Random Forest总结

　　这种做法我们并不陌生，就像是我们之前介绍过的Leave-One-Out Cross Validation，每次只对一个样本进行g^-的验证一样，只不过这里选择的是每个样本是哪些gt 的OOB，然后再分别进行G'n(x)的验证。每个样本都当成验证资料一次（与留一法相同），最后计算所有样本的平均表现：

Random Forest总结

3.RF如何选择特征？

　　如果样本资料特征过多，假如有10000个特征，而我们只想从中选取300个特征，这时候就需要舍弃部分特征。通常来说，需要移除的特征分为两类：一类是冗余特征，即特征出现重复，例如“年龄”和“生日”；另一类是不相关特征，例如疾病预测的时候引入的“保险状况”。这种从d维特征到d’维特征的subset-transform Φ(x)称为Feature Selection，最终使用这些d’维的特征进行模型训练。

Random Forest总结

特征选择的优点是：

提高效率，特征越少，模型越简单
正则化，防止特征过多出现过拟合
去除无关特征，保留相关性大的特征，解释性强

同时，特征选择的缺点是：

筛选特征的计算量较大
不同特征组合，也容易发生过拟合
容易选到无关特征，解释性差

（1）线性模型

　　值得一提的是，在decision tree中，我们使用的decision stump切割方式也是一种feature selection。那么，如何对许多维特征进行筛选呢？我们可以通过计算出每个特征的重要性（即权重），然后再根据重要性的排序进行选择即可。

Random Forest总结

　　这种方法在线性模型中比较容易计算。因为线性模型的score是由每个特征经过加权求和而得到的，而加权系数的绝对值|wi|正好代表了对应特征xi的重要性为多少。|wi|越大，表示对应特征xi越重要，则该特征应该被选择。w的值可以通过对已有的数据集(xi,yi)建立线性模型而得到。

（2）非线性模型

　　然而，对于非线性模型来说，因为不同特征可能是非线性交叉在一起的，所以计算每个特征的重要性就变得比较复杂和困难。例如，Random Forest就是一个非线性模型，接下来，我们将讨论如何在RF下进行特征选择。
　　RF中，特征选择的核心思想是random test。random test的做法是对于某个特征，如果用另外一个随机值替代它之后的表现比之前更差，则表明该特征比较重要，所占的权重应该较大，不能用一个随机值替代。相反，如果随机值替代后的表现没有太大差别，则表明该特征不那么重要，可有可无。所以，通过比较某特征被随机值替代前后的表现，就能推断出该特征的权重和重要性。
　　那么random test中的随机值如何选择呢？通常有两种方法：一是使用uniform或者gaussian抽取随机值替换原特征；一是通过permutation的方式将原来的所有N个样本的第i个特征值重新打乱分布（相当于重新洗牌）。比较而言，第二种方法更加科学，保证了特征替代值与原特征的分布是近似的（只是重新洗牌而已）。这种方法叫做permutation test（随机排序测试），即在计算第i个特征的重要性的时候，将N个样本的第i个特征重新洗牌，然后比较D和D^(p)表现的差异性。如果差异很大，则表明第i个特征是重要的。

Random Forest总结

　　知道了permutation test的原理后，接下来要考虑的问题是如何衡量上图中的performance，即替换前后的表现。显然，我们前面介绍过performance可以用Eoob(G) 来衡量。但是，对于N个样本的第i个特征值重新洗牌重置的D^(p)，要对它进行重新训练，而且每个特征都要重复训练，然后再与原D的表现进行比较，过程非常繁琐。为了简化运算，RF的作者提出了一种方法，就是把permutation的操作从原来的training上移到了OOB validation上去，记为

　　也就是说，在训练的时候仍然使用D，但是在OOB验证的时候，将所有的OOB样本的第i个特征重新洗牌，验证G的表现。这种做法大大简化了计算复杂度，在RF的feature selection中应用广泛。

4.RF的参数有哪些，如何调参？

　　要调整的参数主要是 n_estimators和max_features
（1）n_estimators是森林里树的数量，通常数量越大，效果越好，但是计算时间也会随之增加。此外要注意，当树的数量超过一个临界值之后，算法的效果并不会很显著地变好。
（2）max_features是分割节点时考虑的特征的随机子集的大小。这个值越低，方差减小得越多，但是偏差的增大也越多。

回归问题中使用 max_features = n_features
分类问题使用 max_features = sqrt(n_features )（其中 n_features 是特征的个数）是比较好的默认值。 max_depth = None 和 min_samples_split = 2 结合通常会有不错的效果（即生成完全的树）。

（3）warm_start=False：热启动，决定是否使用上次调用该类的结果然后增加新的。

（4）class_weight=None：各个label的权重。

进行预测可以有几种形式：

predict_proba(x)：给出带有概率值的结果。每个点在所有label的概率和为1.
predict(x)：直接给出预测结果。内部还是调用的predict_proba()，根据概率的结果看哪个类型的预测值最高就是哪个类型。
predict_log_proba(x)：和predict_proba基本上一样，只是把结果给做了log()处理。

　　请记住，这些（默认）值通常不是最佳的，同时还可能消耗大量的内存，最佳参数值应由交叉验证获得。另外，请注意，在随机森林中，默认使用自助采样法（bootstrap = True），然而 extra-trees 的默认策略是使用整个数据集（bootstrap = False）。当使用自助采样法方法抽样时，泛化精度是可以通过剩余的或者袋外的样本来估算的，设置 oob_score = True 即可实现。

提示:
默认参数下模型复杂度是：O(M*N*log(N)) ，其中 M 是树的数目， N 是样本数。可以通过设置以下参数来降低模型复杂度： min_samples_split , min_samples_leaf , max_leaf_nodes`` 和 ``max_depth 。

5.RF的优缺点？

优点:

不同决策树可以由不同主机并行训练生成，效率很高；
随机森林算法继承了CART的优点；
将所有的决策树通过bagging的形式结合起来，避免了单个决策树造成过拟合的问题。

缺点：

当我们需要推断超出范围的独立变量或非独立变量，随机森林做得并不好，我们最好使用如 MARS 那样的算法。
随机森林算法在训练和预测时都比较慢。
如果需要区分的类别十分多，随机森林的表现并不会很好。

参考文献：

【1】林轩田机器学习技法课程学习笔记10 — Random Forest

【2】从决策树到随机森林：树型算法的原理与实现

【3】独家 | 一文读懂随机森林的解释和实现

秒客网

Random Forest总结

一、简介

1.RF的算法的流程？

（1）随机抽取资料

（2）随机抽取特征

【1】随机抽取特征

【2】组合特征

2.Out-of-Bag Estimate

3.RF如何选择特征？

（1）线性模型

（2）非线性模型

4.RF的参数有哪些，如何调参？

5.RF的优缺点？

相关文章

Random Forest总结

一、简介

1.RF的算法的流程？

（1）随机抽取资料

（2）随机抽取特征

【1】随机抽取特征

【2】组合特征

2.Out-of-Bag Estimate

3.RF如何选择特征 ？

（1）线性模型

（2）非线性模型

4.RF的参数有哪些，如何调参 ？

5.RF的优缺点 ？

相关文章

【2】组合特征　　

3.RF如何选择特征？

4.RF的参数有哪些，如何调参？

5.RF的优缺点？