Dra*_*ski 8 apache web-crawler nutch
我用Apache Nutch 2.1抓取了几个站点.
在抓取时我在很多页面上看到以下消息:
ex.跳过http://www.domainname.com/news/subcategory/111111/index.html ; 不同的批次ID(null).
是什么导致这个错误?
如何解决此问题,因为具有不同批处理ID(null)的页面未存储在数据库中.
我抓取的网站是基于drupal,但我已尝试过许多其他非drupal网站.