特征统计(Feature Statistics)
显示特征的基本统计数据
输入
- 数据:输入数据集
输出
- 选中的数据:仅包含所选特征表
- 统计:该表包含所选特征的统计信息
功能
特征统计(Feature Statistics) 小部件提供了一种快速检查和查找给定数据集中特征的方法。
界面
特征统计(Feature Statistics) 小部件应用于 heart-disease 数据集。出于说明目的,exerc ind ang
已手动更改为元变量。
- 有关当前数据集大小,数量和特征类型的信息
- 右侧的直方图可以通过任何特征进行着色。如果所选特征是分类特征,则使用离散的调色板(如示例中所示)。 如果所选特征是数字特征,则使用连续调色板。右侧的表格包含有关数据集中每个特征的统计信息。可以按我们现在描述的每个统计信息对特征进行排序。
- 特征类型-可以是分类,数字,时间和字符串之一。
-
特征名称。
- 特征值的直方图。 如果特征是数字,则我们适当地将值离散化为 bin。 如果特征是分类的,则在直方图中为每个值分配自己的条形图。
- 特征值的集中趋势。对于分类特征,这是模。对于数字特征,这是平均值。
- 特征值的离散度。对于分类特征,这是值分布的熵。 对于数字特征,这是变异系数。
- 最小值。这是针对数字和有序分类特征计算的。
- 最大值。是针对数字和有序分类特征计算的。
- 数据中缺失值的数量。
还要注意,某些行的颜色不同。白色行表示常规特征,灰色行表示类别变量,而较浅的灰色表示元变量。
示例
特征统计(Feature Statistics) 小部件最常在文件(File)小部件之后使用,以检查和查找给定数据集中潜在感兴趣特征。 在以下示例中,我们使用 heart-disease 数据集。
一旦找到了潜在感兴趣特征的子集,或者发现了我们想排除的特征,我们只需选择要保留的特征即可。该小部件仅输出具有这些特征的新数据集。
另外,如果我们要存储特征统计信息,则可以使用 统计
输出并根据需要操纵这些值。 在此示例中,我们仅选择所有特征并将统计信息显示在表格中。
反馈问题
文档有问题? 或者有其他意见和建议? 请在本文档的 Github 仓库直接反馈
点我反馈进入反馈页面不知道如何反馈, 请点击这里