通过哈希搜索?

Ann*_*nan 5 hash search utilities

我的想法是创建一个搜索引擎,它可以像其他搜索引擎一样对网络项目进行索引,但只会存储文件的标题、URL 和内容的哈希值。

这样,如果您已经拥有某些项目但不知道它们来自哪里或想知道某些内容出现的所有位置,那么您可以轻松地在网络上找到这些项目。

对于图像、可执行文件和档案等非文本项目更有用。

我想知道是否已经有类似的东西了?

Tyl*_*ler 5

查看有关局部敏感哈希的维基百科页面。还有一个由麻省理工学院的研究主办的很好的页面

一般来说,有几种可用的风格:字符串哈希(例如simhash)、集合或 0/1 特征(例如min-wise hashes)以及实向量。

到目前为止,数值哈希的主要技巧基本上是降维。对于字符串,我们的想法是提出一种在进行细微编辑时仍能保持稳健的表示形式。

我也在这个领域做了一些研究,尽管我猜想 stackoverflow 可能不是适合新生工作的地方。