Apache Nutch 2.1不同批处理id(null)

Question

我用Apache Nutch 2.1抓取了几个站点.

在抓取时我在很多页面上看到以下消息:
ex.跳过http://www.domainname.com/news/subcategory/111111/index.html ; 不同的批次ID(null).

是什么导致这个错误？
如何解决此问题,因为具有不同批处理ID(null)的页面未存储在数据库中.

我抓取的网站是基于drupal,但我已尝试过许多其他非drupal网站.

Answer 1

我想，消息没有问题。batch_id 未分配给所有 url。因此，如果batch_id为null，则跳过url。当batch_id指定为url时生成url。