相似哈希(Similarity Hashing)

计算文件的哈希值。

输入

  • 语料库: 文件集。

输出

  • 语料库: 以simhash值为属性的语料库。

功能

相似哈希(Similarity Hashing)是一个将文档转化为相似性向量的小工具。这个小工具使用Moses Charikar的SimHash方法。

界面

  1. 设置Simhash大小(输出上会有多少属性,对应信息bit 数)和shingle长度(一个shingle中使用多少个tokens)。
  2. 自动发送自动输出数据。或者,按发送

示例

我们将使用 deerwester.tab 来查找这个小语料库中的相似文档。用语料库小部件加载数据,并将其传递给相似哈希(Similarity Hashing)。我们将保持默认的哈希大小和shingle长度。我们可以观察小部件在数据表中输出的内容。有64个新属性可用,对应Simhash大小 参数。

参考文献

Charikar, M. (2002) Similarity estimation techniques from rounding algorithms. STOC ‘02 Proceedings of the thirty-fourth annual ACM symposium on Theory of computing, p. 380-388.

反馈问题

文档有问题? 或者有其他意见和建议? 请在本文档的 Github 仓库直接反馈

点我反馈

进入反馈页面不知道如何反馈, 请点击这里