随机森林(Random Forest)
使用一组决策树进行预测。
输入
- 数据:输入数据集
- 预处理器:预处理方法
输出
- 学习器:随机森林学习算法
- 模型:训练过的模型
功能
随机森林是一种用于分类,回归和其他任务的集成学习方法。 它最初是由何天琴提出的,然后由莱奥·布雷曼(Leo Breiman,Breiman,2001)和阿黛尔·卡特勒(Adele Cutler)进一步开发。
随机森林 建立一组决策树。 每棵树都是从训练数据的引导样本中得到的。在生长单个树时,将长出特征的任意子集(因此使用术语“随机”),从中选择用于拆分的最佳特征。最终模型基于森林中独立生长的树木的多数投票。
随机森林 适用于分类和回归任务。
界面
- 指定模型名称。 默认名称是“随机森林(Random Forest)”。
- 基本特性:
树木数量
:指定森林中将包含多少棵决策树。每个拆分考虑的属性数目
:指定每个节点多少个随机属性。 如果未勾选,则此数字等于数据中属性数的平方根。可重复训练
:固定随机种子,从而实现结果的可重复性。平衡类别分布
:将类别权重设置为出现频率的反比。
- 生长控制:
单个树的深度
:Breiman 最初的建议是在不进行任何预修剪的情况下生长树,但是由于预修剪通常效果很好且速度更快,因此用户可以设置树的生长深度。小于...不要拆分
:选择可以拆分的最小子集。
- 发送报告
- 勾选 “自动应用” 以自动传送对其他小部件的更改,并在连接学习数据后立即训练分类器。 或者,在配置后按 “应用”。
示例
对于分类任务,我们使用 iris 数据集。 将其连接到预测(Predictions)。 然后,将文件(File)连接到 随机森林(Random Forest) 和树(Tree)并将它们进一步连接到预测(Predictions)。 最后,观察两个模型的预测。
对于回归任务,我们将使用 housing 数据。 在这里,我们将在测试与评分(Test & Score)中比较不同的模型,即 随机森林(Random Forest) ,线性回归(Linear Regression)和常量预测(Constant)。
参考文献
Breiman, L. (2001). Random Forests. In Machine Learning, 45(1), 5-32. Available here.
反馈问题
文档有问题? 或者有其他意见和建议? 请在本文档的 Github 仓库直接反馈
点我反馈进入反馈页面不知道如何反馈, 请点击这里