随机森林如何评估特征重要性

2024-05-17 18:34

1. 随机森林如何评估特征重要性

 集成学习模型的一大特点是可以输出特征重要性，特征重要性能够在一定程度上辅助我们对特征进行筛选，从而使得模型的鲁棒性更好。
    随机森林中进行特征重要性的评估思想为：    判断每个特征在随机森林中的每颗树上做了多大的贡献，然后取个平均值，最后比一比特征之间的贡献大小。其中关于贡献的计算方式可以是基尼指数或袋外数据错误率。
   基尼指数计算方法：k 代表 k 个类别，  代表类别  k的样本权重。   
                                                                                                                                     
   对于一棵树   ，用OOB样本可以得到误差 e1，然后随机改变OOB中的第 j 列，保持其他列不变，对第 j 列进行随机的上下置换，得到误差 e2。至此，可以用 e1-e2 来刻画特征 j 的重要性。其依据就是，如果一个特征很重要，那么其变动后会非常影响测试误差，如果测试误差没有怎么改变，则说明特征j不重要。
   而该方法中涉及到的对数据进行打乱的方法通常有两种：   1）是使用uniform或者gaussian抽取随机值替换原特征；   2）是通过permutation的方式将原来的所有N个样本的第  i 个特征值重新打乱分布（相当于重新洗牌）。

随机森林如何评估特征重要性

2. 随机森林特征重要性

在随机森林介绍中提到了随机森林一个重要特征：能够计算单个特征变量的重要性。并且这一特征在很多方面能够得到应用,例如在银行贷款业务中能否正确的评估一个企业的信用度,关系到是否能够有效地回收贷款。但是信用评估模型的数据特征有很多,其中不乏有很多噪音,所以需要计算出每一个特征的重要性并对这些特征进行一个排序,进而可以从所有特征中选择出重要性靠前的特征。
 
一：特征重要性
在随机森林中某个特征X的重要性的计算方法如下：
1：对于随机森林中的每一颗决策树,使用相应的OOB(袋外数据)数据来计算它的袋外数据误差,记为errOOB1.
2:  随机地对袋外数据OOB所有样本的特征X加入噪声干扰(就可以随机的改变样本在特征X处的值),再次计算它的袋外数据误差,记为errOOB2.
3：假设随机森林中有Ntree棵树,那么对于特征X的重要性=∑(errOOB2-errOOB1)/Ntree,之所以可以用这个表达式来作为相应特征的重要性的度量值是因为：若给某个特征随机加入噪声之后,袋外的准确率大幅度降低,则说明这个特征对于样本的分类结果影响很大,也就是说它的重要程度比较高。
 
二：特征选择
在论文 Variable Selection using Random Forests中详细的论述了基于随机森林的特征选择方法,这里我们进行一些回顾。
首先特征选择的目标有两个：
1：找到与应变量高度相关的特征变量。
2：选择出数目较少的特征变量并且能够充分的预测应变量的结果。
其次一般特征选择的步骤为：
1：初步估计和排序
a)对随机森林中的特征变量按照VI（Variable Importance）降序排序。
b)确定删除比例,从当前的特征变量中剔除相应比例不重要的指标，从而得到一个新的特征集。
c)用新的特征集建立新的随机森林,并计算特征集中每个特征的VI,并排序。
d)重复以上步骤,直到剩下m个特征。
2：根据1中得到的每个特征集和它们建立起来的随机森林,计算对应的袋外误差率(OOB err),将袋外误差率最低的特征集作为最后选定的特征集。

3. 随机森林进行特征重要性度量的详细说明

特征选择方法中，有一种方法是利用随机森林，进行特征的重要性度量，选择重要性较高的特征。下面对如何计算重要性进行说明。
  
 1 特征重要性度量
  
 计算某个特征X的重要性时，具体步骤如下：
  
 1）对每一颗决策树，选择相应的袋外数据（out of bag，OOB）计算袋外数据误差，记为errOOB1.
  
 所谓袋外数据是指，每次建立决策树时，通过重复抽样得到一个数据用于训练决策树，这时还有大约1/3的数据没有被利用，没有参与决策树的建立。这部分数据可以用于对决策树的性能进行评估，计算模型的预测错误率，称为袋外数据误差。
  
  这已经经过证明是无偏估计的,所以在随机森林算法中不需要再进行交叉验证或者单独的测试集来获取测试集误差的无偏估计。 
  
 2）随机对袋外数据OOB所有样本的特征X加入噪声干扰（可以随机改变样本在特征X处的值），再次计算袋外数据误差，记为errOOB2。
  
 3）假设森林中有N棵树，则特征X的重要性=∑（errOOB2-errOOB1）/N。这个数值之所以能够说明特征的重要性是因为，如果加入随机噪声后，袋外数据准确率大幅度下降（即errOOB2上升），说明这个特征对于样本的预测结果有很大影响，进而说明重要程度比较高。
  
 2 特征选择
  
 在特征重要性的基础上，特征选择的步骤如下：
  
 1）计算每个特征的重要性，并按降序排序
  
 2）确定要剔除的比例，依据特征重要性剔除相应比例的特征，得到一个新的特征集
  
 3）用新的特征集重复上述过程，直到剩下m个特征（m为提前设定的值）。
  
 4）根据上述过程中得到的各个特征集和特征集对应的袋外误差率，选择袋外误差率最低的特征集

随机森林进行特征重要性度量的详细说明

4. 随机森林进行特征重要性度量的详细说明

随机森林进行特征重要性度量的详细说明
特征选择方法中，有一种方法是利用随机森林，进行特征的重要性度量，选择重要性较高的特征。下面对如何计算重要性进行说明。
1 特征重要性度量
计算某个特征X的重要性时，具体步骤如下：
1）对每一颗决策树，选择相应的袋外数据（out of bag，OOB）计算袋外数据误差，记为errOOB1.
所谓袋外数据是指，每次建立决策树时，通过重复抽样得到一个数据用于训练决策树，这时还有大约1/3的数据没有被利用，没有参与决策树的建立。这部分数据可以用于对决策树的性能进行评估，计算模型的预测错误率，称为袋外数据误差。
这已经经过证明是无偏估计的,所以在随机森林算法中不需要再进行交叉验证或者单独的测试集来获取测试集误差的无偏估计。
2）随机对袋外数据OOB所有样本的特征X加入噪声干扰（可以随机改变样本在特征X处的值），再次计算袋外数据误差，记为errOOB2。
3）假设森林中有N棵树，则特征X的重要性=∑（errOOB2-errOOB1）/N。这个数值之所以能够说明特征的重要性是因为，如果加入随机噪声后，袋外数据准确率大幅度下降（即errOOB2上升），说明这个特征对于样本的预测结果有很大影响，进而说明重要程度比较高。
2 特征选择
在特征重要性的基础上，特征选择的步骤如下：
1）计算每个特征的重要性，并按降序排序
2）确定要剔除的比例，依据特征重要性剔除相应比例的特征，得到一个新的特征集
3）用新的特征集重复上述过程，直到剩下m个特征（m为提前设定的值）。
4）根据上述过程中得到的各个特征集和特征集对应的袋外误差率，选择袋外误差率最低的特征集。

5. 随机森林算法的优缺点

1.随机森林是一个用随机方式建立的，包含多个决策树的分类器。其输出的类别是由各个树输出的类别的众数而定。

2.随机性主要体现在两个方面：（1）训练每棵树时，从全部训练样本（样本数为N）中选取一个可能有重复的大小同样为N的数据集进行训练（即bootstrap取样）（2）在每个节点，随机选取所有特征的一个子集，用来计算最佳分割方式。

3.随机森林算法的优缺点：（1）随机森林已经被证明在某些噪音较大的分类或回归问题上会过拟（2）对于有不同取值的属性的数据，取值划分较多的属性会对随机森林产生更大的影响，所以随机森林在这种数据上产出的属性权值是不可信的。
4.比决策树算法更复杂，计算成本更高。

随机森林算法的优缺点

6. 随机森林原理介绍与适用情况（综述篇）

 随机森林是一种集成算法（Ensemble Learning），它属于Bagging类型，通过组合多个弱分类器，最终结果通过投票或取均值，使得整体模型的结果具有较高的精确度和泛化性能。其可以取得不错成绩，主要归功于“ 随机 ”和“ 森林 ”，一个使它具有抗过拟合能力，一个使它更加精准。   
                                           
   Bagging也叫自举汇聚法（bootstrap aggregating），是一种在原始数据集上通过有放回抽样重新选出k个新数据集来训练分类器的集成技术。它使用训练出来的分类器的集合来对新样本进行分类，然后用多数投票或者对输出求均值的方法统计所有分类器的分类结果，结果最高的类别即为最终标签。此类算法可以有效降低bias，并能够降低variance。
   随机森林(Random Forest，RF）是Bagging算法的一种，其实在介绍完Bagging算法之后，随机森林几乎是呼之欲出的，RF相对于Bagging只是对其中一些细节做了自己的规定和设计。
   随机森林的弱分类器使用的是CART数，CART决策树又称分类回归树。当数据集的因变量为连续性数值时，该树算法就是一个回归树，可以用叶节点观察的均值作为预测值；当数据集的因变量为离散型数值时，该树算法就是一个分类树，可以很好的解决分类问题。   但需要注意的是，该算法是一个 二叉树 ，即每一个非叶节点只能引伸出两个分支，所以当某个非叶节点是多水平(2个以上)的离散变量时，该变量就有可能被多次使用。同时，若某个非叶节点是连续变量时，决策树也将把他当做离散变量来处理（即在有限的可能值中做划分）
   特征选择目前比较流行的方法是信息增益、增益率、基尼系数和卡方检验。这里主要介绍基于基尼系数（GINI）的特征选择，因为随机森林采用的CART决策树就是基于基尼系数选择特征的。   基尼系数的选择的标准就是每个子节点达到最高的纯度，即落在子节点中的所有观察都属于同一个分类，此时基尼系数最小，纯度最高，不确定度最小。   对于一般的决策树，假如总共有K类，样本属于第k类的概率为：pk，则该概率分布的基尼指数为：
                                           基尼指数越大，说明不确定性就越大；基尼系数越小，不确定性越小，数据分割越彻底，越干净。   对于CART树而言，由于是二叉树，可以通过下面的表示：
                                           在我们遍历每个特征的每个分割点时，当使用特征A=a，将D划分为两部分，即D1（满足A=a的样本集合），D2（不满足A=a的样本集合）。则在特征A=a的条件下D的基尼指数为：
                                           Gini(D)：表示集合D的不确定性。   Gini(A,D)：表示经过A=a分割后的集合D的不确定性。   随机森林中的每棵CART决策树都是通过不断遍历这棵树的特征子集的所有可能的分割点，寻找Gini系数最小的特征的分割点，将数据集分成两个子集，直至满足停止条件为止。
   首先，正如Bagging介绍中提到的，每个树选取使用的特征时，都是从全部m个特征中随机产生的，本身已经降低了过拟合的风险和趋势。模型不会被特定的特征值或者特征组合所决定，随机性的增加，将控制模型的拟合能力不会无限提高。   第二，与决策树不同，RF对决策树的建立做了改进。对于普通的决策树，我们会在节点上所有的m个样本特征中选择一个最优的特征来做决策树的左右子树划分。但是RF的每个树，其实选用的特征是一部分，在这些少量特征中，选择一个最优的特征来做决策树的左右子树划分，将随机性的效果扩大，进一步增强了模型的泛化能力。   假设每棵树选取msub个特征，msub越小，此时模型对于训练集的拟合程度会变差，偏倚增加，但是会泛化能力更强，模型方差减小。msub越大则相反。在实际使用中，一般会将msub的取值作为一个参数，通过开启oob验证或使用交叉验证，不断调整参数以获取一个合适的msub的值。

7. 随机森林的优点

随机森林的优点有：1. 对于很多种资料，它可以产生高准确度的分类器。2. 它可以处理大量的输入变量。3. 它可以在决定类别时，评估变量的重要性。4. 在建造森林时，它可以在内部对于一般化后的误差产生不偏差的估计。5. 它包含一个好方法可以估计遗失的资料，并且，如果有很大一部分的资料遗失，仍可以维持准确度。6. 它提供一个实验方法，可以去侦测 variable interactions 。7. 对于不平衡的分类资料集来说，它可以平衡误差。8. 它计算各例中的亲近度，对于数据挖掘、侦测偏离者（outlier）和将资料视觉化非常有用。9. 使用上述。它可被延伸应用在未标记的资料上，这类资料通常是使用非监督式聚类。也可侦测偏离者和观看资料。10. 学习过程是很快速的。

随机森林的优点

8. 特征筛选（随机森林）

 随机森林能够度量每个特征的重要性，我们可以依据这个重要性指标进而选择最重要的特征。sklearn中已经实现了用随机森林评估特征重要性，在训练好随机森林模型后，直接调用feature_importan ces 属性就能得到每个特征的重要性。
   一般情况下，数据集的特征成百上千，因此有必要从中选取对结果影响较大的特征来进行进一步建模，相关的方法有：主成分分析、lasso等，这里我们介绍的是通过随机森林来进行筛选。
   用随机森林进行特征重要性评估的思想比较简单，主要是看每个特征在随机森林中的每棵树上做了多大的贡献，然后取平均值，最后比较不同特征之间的贡献大小。
   贡献度的衡量指标包括：基尼指数（gini）、袋外数据（OOB）错误率作为评价指标来衡量。
    衍生知识点：权重随机森林的应用（用于增加小样本的识别概率，从而提高总体的分类准确率） 
   随机森林/CART树在使用时一般通过gini值作为切分节点的标准，而在加权随机森林（WRF）中，权重的本质是赋给小类较大的权重，给大类较小的权重。也就是给小类更大的惩罚。权重的作用有2个，第1点是用于切分点选择中加权计算gini值，表达式如下：
                                           其中，N表示未分离的节点，N L 和N R 分别表示分离后的左侧节点和右侧节点，W i 为c类样本的类权重，n i 表示节点内各类样本的数量，Δi是不纯度减少量，该值越大表明分离点的分离效果越好。
   第2点是在终节点，类权重用来决定其类标签，表达式如下：
                                           参考文献：随机森林针对小样本数据类权重设置      https://wenku.baidu.com/view/07ba98cca0c7aa00b52acfc789eb172ded639998.html 
   这里介绍通过gini值来进行评价，我们将变量的重要性评分用VIM来表示，gini值用GI表示，假设有m个特征X 1 ，X 2 ，...X c ，现在要计算出每个特征X j 的gini指数评分VIM j ，即第j个特征在随机森林所有决策树中节点分裂不纯度的平均改变量，gini指数的计算公式如下表示：
                                           其中，k表示有k个类别，p mk 表示节点m（将特征m逐个对节点计算gini值变化量）中类别k所占的比例。
   特征X j 在节点m的重要性，即节点m分枝前后的gini指数变化量为：
                                           其中GI l 和GI r 分别表示分枝后两个新节点的gini指数。
   如果特征X j 在决策树i中出现的节点在集合M中，那么X j 在第i棵树的重要性为：
                                           假设随机森林共有n棵树，那么：
                                           最后把所有求得的重要性评分进行归一化处理就得到重要性的评分：
                                           通过sklearn中的随机森林返回特征的重要性：
   值得庆幸的是，sklearnsklearn已经帮我们封装好了一切，我们只需要调用其中的函数即可。   我们以UCI上葡萄酒的例子为例，首先导入数据集。
   然后，我们来大致看下这时一个怎么样的数据集
   输出为
   可见共有3个类别。然后再来看下数据的信息：
   输出为
   可见除去class label之外共有13个特征，数据集的大小为178。   按照常规做法，将数据集分为训练集和测试集。
   好了，这样一来随机森林就训练好了，其中已经把特征的重要性评估也做好了，我们拿出来看下。
   输出的结果为
   对的就是这么方便。   如果要筛选出重要性比较高的变量的话，这么做就可以
   输出为
   瞧，这不，帮我们选好了3个重要性大于0.15的特征了吗~
   [1] Raschka S. Python Machine Learning[M]. Packt Publishing, 2015.   [2] 杨凯, 侯艳, 李康. 随机森林变量重要性评分及其研究进展[J]. 2015.