查重(Duplicate Detection)

从语料库中检测和删除重复的内容。

输入

查重(Duplicate Detection)使用聚类来查找语料库中的重复内容。~~它与Twitter小工具一起使用，可以很好地去除转发和其他相似文档。~~

要设置相似程度，在图中向左或向右拖动竖直线。该线越左，文档必须越相似才能被认为是重复的。您也可以在控制区手动设置阈值。

这个简单的例子使用 iris 数据来查找相同的数据实例。使用文件小部件加载 iris 并将其传递给距离小部件。在距离小部件中，使用欧氏距离来计算距离矩阵。将距离传给 查重(Duplicate Detection)。

看起来簇 C147 包含三个重复的条目。让我们在小部件中选择它并在数据表中观察它。记得将输出设置为 重复簇 。这三个数据实例是相同的。要使用没有重复的数据集，请使用第一个输出，无重复语料。

同样的过程也可以用于语料。记得在语料库和距离之间使用词袋。

文档有问题? 或者有其他意见和建议? 请在本文档的 Github 仓库直接反馈

进入反馈页面不知道如何反馈, 请点击这里