距离(Distances)

计算数据集中行/列之间的距离。

输入

  • 数据:输入数据集

输出

  • 距离:距离矩阵

功能

距离(Distances) 小部件可计算数据集中行或列之间的距离。默认情况下,将对数据进行归一化以确保平等对待各个特征。 归一化总是按列进行。

稀疏数据使用 EuclideanManhattanCosine 度量

可以将生成的距离矩阵进一步发送到层次聚类(Hierarchical Clustering)以发现数据中的组,再发送到距离图(Distance Map)距离矩阵(Distance Matrix)以可视化距离( 对于较大的数据集,距离矩阵可能会非常慢),发送到MDS以使用距离矩阵映射数据实例,最后将其保存为保存距离矩阵(Save Distance Matrix)。 可以使用距离文件(Distance File)加载距离文件。

界面

  1. 选择是测量行还是列之间的距离。
  2. 选择 距离度量

    • Euclidean: 两点之间的直线距离
    • Manhattan: 所有属性的绝对差之和
    • Cosine: 内积空间的两个向量之间的夹角的余弦
    • Jaccard: 交集的大小除以样本集并集的大小
    • Spearman: 值的秩之间的线性相关性,重新映射为[0,1]之间的距离
    • Spearman absolute: 值的秩的绝对值之间的线性相关性,重新映射为[0,1]之间的距离
    • Pearson 值之间的线性相关性,重新映射为[0,1]之间的距离
    • Pearson absolute 值的绝对值之间的线性相关性,重新映射为[0,1]之间的距离
    • Hamming: 相应值不同的特征数量
    • Bhattacharyya distance: 两个概率分布之间的相似度,不是真实距离,因为它不服从三角形不等式。 归一化特征。 归一化总是按列进行。值以零为中心并缩放。 在有缺失值的情况下,小部件会自动填充行或列的平均值。 该小部件可用于数字数据和分类数据。 对于分类数据,如果两个值相同(“绿色”和“绿色”),则距离为0;如果两个值不同(“绿色”和“蓝色”),则距离为1。
  3. 勾选 自动应用 以自动将更改提交到其他窗口小部件。 或者,按 应用

示例

第一个示例显示了距离(Distances) 小部件的典型用法。 我们使用文件(File)小部件中的 iris.tab 数据。 我们计算数据实例(行)之间的距离,并将结果传递给层次聚类(Hierarchical Clustering)。 这是查找数据实例组的简单工作流程。

另外,我们可以计算列之间的距离,并发现我们的特征有多相似。

第二个示例显示如何可视化所得距离矩阵。观察数据相似性的一种好方法是在距离图(Distance Map)MDS中。

反馈问题

文档有问题? 或者有其他意见和建议? 请在本文档的 Github 仓库直接反馈

点我反馈

进入反馈页面不知道如何反馈, 请点击这里

更新时间: