标签: heritrix

如何从heritrix抓取中排除除text/html之外的所有内容?

On:Heritrix Usecases有一个"仅存储成功的HTML页面"的用例

我的问题:我不知道如何在我的cxml文件中实现它.特别是:将ContentTypeRegExpFilter添加到ARCWriterProcessor =>将其正则表达式设置为text/html.*....示例cxml Files中没有ContentTypeRegExpFilter.

indexing search-engine web-crawler cxml heritrix

4
推荐指数
1
解决办法
2723
查看次数

Nutch vs Heritrix vs Stormcrawler vs MegaIndex vs Mixnode

我们需要每两周抓取大量(约15亿)网页.速度,因此成本,对我们来说是一个巨大的因素,因为我们最初的尝试最终耗费了我们超过2万美元.

是否有关于哪个爬虫在分布式环境中表现最佳的数据?

web-crawler nutch heritrix stormcrawler

4
推荐指数
2
解决办法
2018
查看次数