预处理(Preprocess)

使用选定的方法预处理数据。

输入

预处理(Preprocess) 对于获得更高质量的分析结果至关重要。预处理(Preprocess)小部件提供了可使用一个预处理流水线，这个流水线可以结合几种预处理方法。某些方法可以作为单独的小部件使用，它们提供了更高级的技术和更完善的参数调整。

Fayyad 和 Irani 提出的熵 MDL 离散化（Entropy-MDL discretization）使用期望信息（expected information）决定柱子（bin）的宽度。
等频离散化 按频率划分（每个柱子（bin）中的实例数相同）。
等宽离散化会创建等宽度的条（每个柱子（bin）的跨度相同）。
完全删除数字功能。

与排名(Rank)小部件相似，此预处理器仅输出最有用的特征。评分方法：信息增益，增益比，基尼系数，ReliefF，fast correlation based filter，ANOVA, Chi2, RReliefF，和单变量线性回归。
特征的数量 是指输出中应包含多少变量。
- 固定：返回固定数量的得分最高的变量，
- 百分比：返回所选特征的最高百分比。

会从原始数据中输出固定数量的特征或一个百分比。这主要用于高级测试和教育目的。

将值调整为一个共同范围。通过均值或中中位数或完全省略中心来确定中心值。与缩放类似，可以按标准差，按跨度或根本不按比例进行缩放。

随机化会打乱类别，并破坏实例与类别之间的连接。同样，可以将特征或元数据随机化。如果启用了 可复制混排，则可以使用保存的工作流程共享和重复随机结果。这主要用于高级测试和教育目的。

删除稀疏特征将保留具有超过用户定义阈值百分比的非零值的特征。其余的将被丢弃。

输出PCA转换的结果。类似于PCA小部件。

我们使用了文件(File)小部件的下拉菜单中可用的 heart_disease.tab 数据集。然后我们使用 预处理(Preprocess) 小部件来填充缺失值并标准化特征。我们可以在数据表(Data Table)观察变化，并将其与未处理的数据进行比较。

我们展示了如何使用 预处理(Preprocess) 进行预测建模。

我们使用文件(File)小部件中的 heart_disease.tab （心脏病）数据。可以通过下拉菜单访问数据。这是一个包含 303 名胸痛患者的数据集。测试完成后，发现一些患者的直径变窄(diameter narrowing)，而其他患者则没有（这是我们的类别变量）。

心脏病数据缺少一些值，我们希望考虑到这个情况。

首先，我们将使用数据采样器(Data Sampler) 将数据集分为训练数据和测试数据。
然后我们将数据样本发送到 预处理(Preprocess)。我们将使用填充缺失值预处理器，但是您可以在数据上尝试使用任何预处理器组合。我们将预处理数据发送给逻辑回归（Logistic Regression）小部件，构建模型并预测。
最后，预测(Predictions)还需要数据进行预测。我们将使用数据采样器(Data Sampler)的输出进行预测，但这一次不是数据样本，而是剩余数据，这是未用于训练模型的数据。

请注意，我们如何将剩余数据直接发送到预测(Predictions)，而不进行任何预处理。这是因为橙现智能会在内部对新数据预处理，以防止模型构造中的任何错误。与训练数据完全相同的预处理过程将用于预测。相同的过程适用于测试和评分(Test & Score)。

文档有问题? 或者有其他意见和建议? 请在本文档的 Github 仓库直接反馈

进入反馈页面不知道如何反馈, 请点击这里