相似哈希(Similarity Hashing)
计算文件的哈希值。
输入
- 语料库: 文件集。
输出
- 语料库: 以simhash值为属性的语料库。
功能
相似哈希(Similarity Hashing)是一个将文档转化为相似性向量的小工具。这个小工具使用Moses Charikar的SimHash方法。
界面
- 设置Simhash大小(输出上会有多少属性,对应信息bit 数)和shingle长度(一个shingle中使用多少个tokens)。
- 按自动发送自动输出数据。或者,按发送。
示例
我们将使用 deerwester.tab 来查找这个小语料库中的相似文档。用语料库小部件加载数据,并将其传递给相似哈希(Similarity Hashing)。我们将保持默认的哈希大小和shingle长度。我们可以观察小部件在数据表中输出的内容。有64个新属性可用,对应Simhash大小 参数。
参考文献
Charikar, M. (2002) Similarity estimation techniques from rounding algorithms. STOC ‘02 Proceedings of the thirty-fourth annual ACM symposium on Theory of computing, p. 380-388.
反馈问题
文档有问题? 或者有其他意见和建议? 请在本文档的 Github 仓库直接反馈
点我反馈进入反馈页面不知道如何反馈, 请点击这里