是否存在容忍微小差异的散列算法?

Jas*_*ker 10 algorithm hash caching web-crawler

我正在做一些网络爬行类型的东西,我正在寻找网页中的某些术语,并在页面上找到它们的位置,然后将其缓存以供以后使用.我希望能够定期检查页面是否有任何重大变化.只需将当前日期和时间放在页面上就可以挫败md5之类的东西.

是否有任何哈希算法适用于这样的事情?

Jim*_*hel 11

进行文档相似性的一种常见方法是混乱,这比散列更为复杂.还要查看内容定义的分块,以便分割文档.

几年前我读了一篇关于使用Bloom过滤器进行相似性检测的论文.使用Bloom过滤器来优化Web搜索结果.这是一个有趣的想法,但我从来没有尝试过它.