预测(Predictions)

显示模型对数据的预测。

输入

  • 数据:输入数据集
  • 预测器:要在数据上使用的预测器

输出

  • 预测:添加了预测结果的数据
  • 评估结果:测试分类算法的结果

功能

该小部件会接收一个数据集和一个或多个预测器(预测模型,而非学习算法-参见下面的示例)。它输出数据和预测。

界面

  1. 有关输入的信息,即要预测的实例数,预测器的数量和任务(分类或回归)。如果您已按属性对数据表进行了排序,并且希望看到原始视图,请按 恢复原始顺序

小部件显示预测模型的概率和最终结果。 此小部件的输出是另一个数据集,其中将预测附加为新的元属性。 您可以选择要输出的特征(原始数据,预测,概率)。可以在数据表(Data Table)中观察结果。如果预测的数据包括真实的类别值,则预测的结果也可以在混淆矩阵(Confusion Matrix)中观察到。

示例

在第一个示例中,我们将使用数据集(Datasets)小部件中的 Attrition-Train 数据。 这是有关员工流失的数据。 换句话说,我们希望知道某个雇员是否会辞职。我们将使用树(Tree) 小部件构造一个预测模型,并观察预测(Predictions) 中的概率。

为了进行预测,我们既需要在第一个 数据集(Datasets) 小部件中加载的训练数据,又要在另一个 数据集(Datasets) 小部件中加载的预测数据。这次我们将使用 Attrition-Predict 数据。将第二个数据集连接到 预测(Predictions)。 现在我们可以看到来自第二个数据集的三个数据实例的预测。

树(Tree) 模型预测没有雇员会离开公司。您可以尝试其他模型,看看预测是否发生变化。 或先在测试与评分(Test & Score)小部件中测试预测得分。

在第二个示例中,我们将看到如何正确地将预处理(Preprocess)预测(Predictions)测试与评分(Test & Score) 结合使用。

这次,我们使用文件(File) 小部件中的 heart Disease.tab 数据。 您可以通过下拉菜单访问数据。 这是一个包含 303 名胸痛患者的数据集。测试完成后,发现一些患者的直径变窄( diameter narrowing),而其他患者则没有(这是我们的目标类别变量)。

心脏病数据缺少一些值,我们希望对此加以说明。 首先,我们将使用 数据采样器(Data Sampler) 将数据集分为训练数据和测试数据。

然后,我们将 数据样本 发送到预处理(Preprocess)。 我们将使用 填充缺失值,但是您可以尝试对数据进行预处理的任意组合。 我们将预处理的数据发送到逻辑回归(Logistic Regression) ,并将构建的模型发送给 预测(Predictions)

最后,预测(Predictions) 还需要数据来进行预测。 我们将使用 数据采样器(Data Sampler) 的输出进行预测,但这一次不是数据样本,而是剩余数据,这是未用于训练模型的数据。

请注意,我们如何将剩余数据直接发送到 预测(Predictions) 而不进行任何预处理。这是因为橙现智能会在内部对新数据预处理,以防止模型构造中的任何错误。与训练数据完全相同的预处理将用于预测。 相同的过程适用于 测试与评分(Test & Score).

反馈问题

文档有问题? 或者有其他意见和建议? 请在本文档的 Github 仓库直接反馈

点我反馈

进入反馈页面不知道如何反馈, 请点击这里