清理特征(Purge Domain)

删除未使用的属性值和无用的属性,对剩余的值进行排序。

输入

  • 数据:输入数据集

输出

  • 数据:过滤后的数据集

功能背景

标称属性的定义有时包含不出现在数据中的值。即使在原始数据中没有发生这种情况,过滤数据,选择示例性子集等, 以删除属性具有某些特定值的所有样本。这样的值会使数据表示混乱,尤其是混淆可视化,因此应该删除。

清理属性后,它可能变为单值,或者在极端情况下根本没有值(如果所有样本都没有定义)。在这种情况下,可以删除该属性。

一个不同的问题是属性值的顺序:如果从文件中读取数据的格式不是事先声明值,则它们将按“出现顺序”排序。 有时我们希望按字母顺序对它们进行排序。

功能

这种纯化是通过小部件 清理特征(Purge Domain) 完成的。普通属性和分类属性分别处理。对于每个属性,我们可以决定是否要对值进行排序。接下来,我们可以允许小部件删除少于两个值的属性,或者如果分类少于两个,则删除此分类属性。最后,我们可以指示小部件检查哪些属性值实际出现在数据中并删除未使用的值。如果不允许删除属性,则该窗口小部件无法删除值,因为具有没有值的属性是没有意义的。

清理后的新属性使用前缀 “R”,以区别于原始属性。可以从旧属性中计算出新属性的值,但反之则不能。这意味着,如果您根据新属性构造分类器,则可以使用它对原始属性描述的示例进行分类。反之则不行:从旧属性构造一个分类器,然后在清理后属性描述的示例中使用分类器,将无法正常工作。 幸运的是,后者很少出现这种情况。在典型的设置中,人们将浏览数据,对其进行可视化,过滤,净化……然后在原始数据上测试最终模型。

界面

  1. 清理属性。
  2. 清理类。
  3. 清理元属性。
  4. 有关过滤的信息。
  5. 生成报告。
  6. 如果勾选了“自动应用”,则小部件将在以下位置输出数据小部件设置的每次更改。

示例

清理特征(Purge Domain) 小部件通常会在数据过滤后出现,例如,在选择可视化示例的子集时。

我们使用 adult.tab 数据集:将其可视化并选择一部分数据,其中仅包含五个原始类中的四个。为了摆脱空类,我们在进入箱线图(Box Plot)小部件之前,先通过清理特征(Purge Domain)放置数据。箱线图(Box Plot)小部件仅显示 清除数据 输出端中的四个类。 要查看数据清理的效果,请取消选中 删除未使用的类别,并观察其对箱线图(Box Plot)的影响。

反馈问题

文档有问题? 或者有其他意见和建议? 请在本文档的 Github 仓库直接反馈

点我反馈

进入反馈页面不知道如何反馈, 请点击这里