离散化(Discretize)
从输入数据集中离散化连续属性。
输入
- 数据:输入数据集
输出
- 数据:离散化之后的数据集
功能
离散化(Discretize) 小部件使用选定的方法离散化连续属性。
界面
- 小部件的基本版本非常简单。它允许在三种不同的离散化方法之间进行选择。
- 要单独处理属性,请转到“单个属性设置”。它们显示每个属性的特定离散化并允许更改。
- 首先,左上方的列表显示每个属性的截止点。 在截图中,我们使用了
熵MDL离散化
,它可以自动确定最佳间隔数。我们可以看到,它把age
离散化为七个区间,分别为21.50、23.50、27.50、35.50、43.50、54.50 和 61.50,而capital-gain
被分成多个区间,具有多个截止点。 例如,将最终重量(fnlwgt)只留了一个间隔,所以将其除去。 - 在右侧,我们可以为每个属性选择一种特定的离散化方法。
基于MDL的离散化
将删除属性fnlwgt
,因此,为了防止删除该属性,我们选择该属性,然后选择“等频率离散化”。我们也可以选择保持属性连续。
- 首先,左上方的列表显示每个属性的截止点。 在截图中,我们使用了
- 生成报告。
- 勾选 “自动应用”,使小部件自动提交更改。 或者,按 “应用”。
示例
此例使用具有连续属性的 Iris 数据集(与原始数据文件相同)并具有离散属性。
反馈问题
文档有问题? 或者有其他意见和建议? 请在本文档的 Github 仓库直接反馈
点我反馈进入反馈页面不知道如何反馈, 请点击这里