数据透视表(Pivot Table)

根据列值重塑数据表 WRONG

输入

  • 数据:输入数据集

输出

  • 数据透视表:列联矩阵,如小部件中所示
  • 过滤数据:从图中选择的子集
  • 分组数据:汇总由行值定义的组

功能

数据透视表(Pivot Table) 将更详细的表的数据汇总为统计表。统计信息可以包括总和,平均值,计数等。此小部件还允许从表中选择一个子集,并按行值进行分组,而行值必须是离散变量。表中不能显示仅包含数字变量的数据。

界面

  1. 用于行值的离散或数字变量。数字变量被视为整数。
  2. 用于列值的离散变量。 变量值将在表中显示为列。
  3. 用于聚合的值。聚合值将在表格中显示为单元格。
  4. 聚合方法:
    • 任何变量类型:
      • 计数:具有给定的行和列值的实例数
      • 非缺失数目:非缺失值的统计
    • 数字变量:
      • 总和:总和
      • 平均值:平均值。
      • 模:子集的最频繁值。
      • 最小值:最小值。
      • 最大值:最大值。
      • 中位数:中位数。
      • 变量:子集的方差。
    • 离散变量:
      • 最常见:子集的最频繁值。
  5. 勾选左侧的框以自动输出任何更改。否则需要按”应用“按钮。

离散变量

这是仅选择离散变量的数据透视表示例。在此示例中,我们使用 heart-disease 数据集。行对应 diameter narrowing 变量的值。列是 gender,即女性和男性。 单元格中的值选择“(无)”。

我们选择了 ”数目“和 ”最常见“ 作为聚合方法。在数据透视表中,我们可以看到没有 diameter narrowing 且为 female 的实例的数量。 有72名这样的患者。 同时,有92名男性患者的直径没有 diameter narrowing

第二行显示多数。 这意味着大多数没有缩小直径的女性患者的胸透结果正常。 相反,直径变窄的女性患者通常具有可逆的缺损。

数值变量

具有数字变量的数据透视表的示例。 在此示例中,我们使用心脏疾病数据集。 行对应于直径变窄变量的值。 我们的列是性别值,即女性和男性。 我们将剩余SBP用作单元格中的值。

我们选择了计数,总和和中位数作为汇总方法。 在“计数”下,我们发现有72名女性患者的直径没有变窄,与以前离散值相同。 总和和中值汇总不同。 我们发现没有直径变窄的女性患者的静息收缩压之和为9269,中位数为130。

示例

在此示例中,我们使用森林火灾作为演示。 数据将加载到“数据集”小部件中并传递到数据透视表。 森林火灾数据集按发生火灾的月份和日期报告森林火灾。 通过选择“计数”作为聚合方法,并使用“月”作为行,将“天”用作列值,我们可以汇总所有发生的森林火灾。 由于我们使用的是Count,因此Values变量将无效。 我们可以在“线图”中绘制计数。 但是首先,让我们稍微整理一下数据。 使用“编辑域”,我们将对行值进行重新排序,以便月份将以正确的顺序显示,即从一月到十二月。 要对列执行相同的操作,我们将使用“选择列”并对日期进行重新排序,以将其从星期一转移到星期日。 终于,我们的数据准备好了。 让我们将其传递给线图。 我们可以看到,森林火灾在8月和9月最为常见,而周末的火灾发生频率比平日高。

反馈问题

文档有问题? 或者有其他意见和建议? 请在本文档的 Github 仓库直接反馈

点我反馈

进入反馈页面不知道如何反馈, 请点击这里