xyz*_*xyz 5 algorithm indexing hash search-engine data-structures
我有时会在信息检索,搜索引擎,爬虫等环境中听到esp,我们可以通过散列页面内容来检测重复页面.什么样的散列函数能够散列整个网页(至少2个寻呼机),这样2个副本具有相同的散列输出值?典型哈希输出值的大小是多少?
这样的哈希函数是否能够在同一个桶中放置两个类似的网页,其中有轻微的错别字等?
谢谢,
| 归档时间: |
|
| 查看次数: |
2896 次 |
| 最近记录: |