离散化(Discretize)

从输入数据集中离散化连续属性。

输入

  • 数据:输入数据集

输出

  • 数据:离散化之后的数据集

功能

离散化(Discretize) 小部件使用选定的方法离散化连续属性。

界面

  1. 小部件的基本版本非常简单。它允许在三种不同的离散化方法之间进行选择。
    • 熵-MDL,是Fayyad和Irani发明的,是自上而下的离散化,递归地依据最大化信息增益将属性拆分为,直到增益低于拆分的最小描述长度。这种离散化可以导致任意数量的间隔,包括单个间隔,在这种情况下,该属性将被丢弃为无用(已删除)。
    • 等频离散化将属性划分为给定数量的间隔,以便每个间隔包含大约相同数量的实例。
    • 等宽离散化在最小和最大观测值之间平均划分范围。 间隔数 可以手动设置。
    • 也可以将小部件设置为保持属性连续或将其删除。
  2. 要单独处理属性,请转到“单个属性设置”。它们显示每个属性的特定离散化并允许更改。
    • 首先,左上方的列表显示每个属性的截止点。 在截图中,我们使用了 熵MDL离散化,它可以自动确定最佳间隔数。我们可以看到,它把 age 离散化为七个区间,分别为21.50、23.50、27.50、35.50、43.50、54.50 和 61.50,而 capital-gain 被分成多个区间,具有多个截止点。 例如,将最终重量(fnlwgt)只留了一个间隔,所以将其除去。
    • 在右侧,我们可以为每个属性选择一种特定的离散化方法。基于MDL的离散化 将删除属性 fnlwgt,因此,为了防止删除该属性,我们选择该属性,然后选择“等频率离散化”。我们也可以选择保持属性连续。
  3. 生成报告。
  4. 勾选 “自动应用”,使小部件自动提交更改。 或者,按 “应用”

示例

此例使用具有连续属性的 Iris 数据集(与原始数据文件相同)并具有离散属性。

反馈问题

文档有问题? 或者有其他意见和建议? 请在本文档的 Github 仓库直接反馈

点我反馈

进入反馈页面不知道如何反馈, 请点击这里