填充(Impute)

替换数据中的未知值。

输入

  • 数据: 输入数据集
  • 学习器: 填充学习算法

输出

  • 数据: 填充后的数据集

功能

某些橙现智能的算法和可视化效果不能处理数据中的缺失值。此小部件执行统计人员所说的填充:它通过根据数据计算或用户设置的值替换缺失值。默认填充为(1-NN)。

界面

  1. 选择一个默认方法,为所有特征指定一个通用填充方法。
    • 不填充 将不会对缺失的值做任何处理。
    • 平均/最频繁:对于连续属性使用平均值,对于离散属性使用最频繁值。
    • 独特的值:创建新的值以替换缺少的值。
    • 基于模型的填充值:根据其他特征的值构造一个预测缺失值的模型;为每个属性构建一个单独的模型。默认模型是1-NN 学习器,它会从最相似的样本中获取值(这有时被称为hot-deck填充)。该算法可由用户连接到输入端的学习器进行填充。但是,如果数据中存在离散和连续属性,则算法需要能够同时处理这两个特征;目前只有1-NN 学习器可以做到这一点。
    • 随机值:计算每个特征的值的分布,然后从中随机选取值进行填充。
    • 删除具有未知值的实例:删除包含缺失值的实例。如果勾选了“填充类别”,则此检查也适用于类属性。
  2. 可以为每个特征指定单独的处理方式,这将覆盖默认的处理器。还可以手动定义填充值。在截图中,我们选择删除“Max HR”有缺失的值,所有其他属性的值使用上面设置的默认方法。
  3. 调整个别属性的填充方法。
  4. 此按钮会将单个属性处理重置为默认值。
  5. 如果勾选了 ”自动发送“,则小部件会自动将更改传达给其他小部件。

示例

在这个示例中,我们使用 iris 数据集进行操作并删除了一些数据。我们使用 填充(Impute) 小部件,并选择了 基于模型的填充值 来计算缺失的值。在另一个数据表(Data Table)中,我们看到问号是如何变成不同值的(“Iris-setosa, “Iris-versicolor”)。

反馈问题

文档有问题? 或者有其他意见和建议? 请在本文档的 Github 仓库直接反馈

点我反馈

进入反馈页面不知道如何反馈, 请点击这里