不会两次抓取相同的内容

Question

我正在构建一个小型应用程序,它将抓取内容增长的网站(如在stackoverflow上),不同之处在于很少修改创建的内容.

现在,在第一遍中,我抓取了网站中的所有页面.

但接下来,该网站的分页内容 - 我不想重新抓取所有内容,只是最新增加的内容.

因此,如果该网站有500页,如果该网站有501页,则在第二遍时,我只会抓取第一页和第二页.这是处理这种情况的好方法吗？

最后,已抓取的内容最终会以lucene结尾 - 创建自定义搜索引擎.

所以,我想避免多次抓取相同的内容.有更好的想法吗？

编辑:

假设该网站有一个页面:将被访问的结果如下:

结果？page = 1,Results？page = 2 ...等

我想跟踪上次抓取时有多少页面只是抓取差异就足够了.(也许在页面上使用每个结果的哈希 - 如果我开始遇到相同的哈希 - 我应该停止)

Answer 1

如果每条内容都位于一个唯一的位置,只需将这些位置(可能是URL)提供给哈希字段,然后在"抓取"内容之前检查它.无论如何,URL应该是Lucene中存储数据的一部分,因此在添加到索引之前通过搜索很容易实现.