1 .随机森林算法原理随机森林算法是Bagging集成框架下的算法,同时针对训练数据和特征采用随机采样的方法建立更多样化的模型。 随机森林的具体算法步骤如下。
假设存在1,n个样本,则存在要返回的n个随机选择样本(每次随机选择一个样本,然后返回该样本继续选择)。 用选择的n个样本训练一个决策树,作为决策树根节点的样本。
2 .假设每个样本有m个属性,决策树在节点分裂时,随机从这m个属性中选择m个属性,满足条件mmm。 然后,使用最大化信息增益等策略,从m个属性中选择最佳属性作为该节点的分类属性。
3 .决策树形成过程中重复步骤2计算分裂节点。 直到节点不能再分裂或达到设定的阈值(例如,树的深度、叶的节点数等)。 注意整个决策树形成过程中没有进行剪枝。
4 .通过重复步骤1到3创建大量决策树,可以配置随机林。
2 .随机林的随机性出现在哪里随机林的随机性出现在每个树上的训练样本是随机的,树中每个节点的分裂属性集合也是随机选择确定的,如下:
(1)随机采样)随机林在计算一棵树时,从所有训练样本(样本数n )中选择一个可能重复且大小相同的n个数据集进行训练(即boot )
)特征选择的随机性)节点分裂计算时,随机选择所有特征的子集,计算最优分割方法。
3 .随机森林算法的优缺点3、1 .优点特征和数据随机采样
)1)可以处理大量高维(特征多)数据,且无需降维,无需进行特征选择
)2)即使大部分特征丢失,也能使精度保持一致;
)3)难以拟合的树模型的特性
)4)良好的说明和鲁棒性
)5)可以自动发现特征之间的高阶关系
)6)无需对数据进行归一化等特殊预处理; 算法结构
)7)训练速度比较快,便于并行
)8)实现比较简单。 3.2 .缺点随机森林被证明在噪声大的分类和回归问题上过于拟合。 【决策树学习本质上进行决策节点的分裂,取决于训练数据的空间分布】对于具有不同取值属性的数据,取值属性对随机森林的影响更大,因此随机森林在这类数据上产生的属性权重不可靠。