为什么随机森林小数据预测准确度高于大数据

2024-05-17 19:26

1. 为什么随机森林小数据预测准确度高于大数据

离群值是一些观测值，它的位置离数据集中的大多数其他观测值足够远，可以认为是异常的。离群观测的原因包括固有的变异性或测量误差。异常值显著影响估计和推断，因此检测它们决定是删除还是稳健分析非常重要。

为了演示异常值检测，此示例：
从具有异方差性的非线性模型生成数据，并模拟一些异常值。
生长回归树的分位数随机森林。
估计预测变量范围内的条件四分位（Q1、Q2和Q3）和四分位距（IQR）。
将观测值与边界进行比较，边界为F1=Q1−1.5IQR和F2=Q3+1.5IQR。任何小于F1或大于F2的观测值都是异常值。【摘要】
为什么随机森林小数据预测准确度高于大数据【提问】
离群值是一些观测值，它的位置离数据集中的大多数其他观测值足够远，可以认为是异常的。离群观测的原因包括固有的变异性或测量误差。异常值显著影响估计和推断，因此检测它们决定是删除还是稳健分析非常重要。

为了演示异常值检测，此示例：
从具有异方差性的非线性模型生成数据，并模拟一些异常值。
生长回归树的分位数随机森林。
估计预测变量范围内的条件四分位（Q1、Q2和Q3）和四分位距（IQR）。
将观测值与边界进行比较，边界为F1=Q1−1.5IQR和F2=Q3+1.5IQR。任何小于F1或大于F2的观测值都是异常值。【回答】

2. 随机森林的学习算法

根据下列算法而建造每棵树：1. 用 N 来表示训练例子的个数，M表示变量的数目。2. 我们会被告知一个数 m ，被用来决定当在一个节点上做决定时，会使用到多少个变量。m应小于M3. 从N个训练案例中以可重复取样的方式，取样N次，形成一组训练集（即bootstrap取样）。并使用这棵树来对剩余预测其类别，并评估其误差。4. 对于每一个节点，随机选择m个基于此点上的变量。根据这 m 个变量，计算其最佳的分割方式。5. 每棵树都会完整成长而不会剪枝（Pruning）（这有可能在建完一棵正常树状分类器后会被采用）。

3. 随机森林算法的优缺点

1.随机森林是一个用随机方式建立的，包含多个决策树的分类器。其输出的类别是由各个树输出的类别的众数而定。

2.随机性主要体现在两个方面：（1）训练每棵树时，从全部训练样本（样本数为N）中选取一个可能有重复的大小同样为N的数据集进行训练（即bootstrap取样）（2）在每个节点，随机选取所有特征的一个子集，用来计算最佳分割方式。

3.随机森林算法的优缺点：（1）随机森林已经被证明在某些噪音较大的分类或回归问题上会过拟（2）对于有不同取值的属性的数据，取值划分较多的属性会对随机森林产生更大的影响，所以随机森林在这种数据上产出的属性权值是不可信的。
4.比决策树算法更复杂，计算成本更高。

随机森林算法的优缺点