标签: heritrix

On:Heritrix Usecases有一个"仅存储成功的HTML页面"的用例

我的问题:我不知道如何在我的cxml文件中实现它.特别是:将ContentTypeRegExpFilter添加到ARCWriterProcessor =>将其正则表达式设置为text/html.*....示例cxml Files中没有ContentTypeRegExpFilter.

4
推荐指数

1
解决办法

2723
查看次数

我们需要每两周抓取大量(约15亿)网页.速度,因此成本,对我们来说是一个巨大的因素,因为我们最初的尝试最终耗费了我们超过2万美元.

是否有关于哪个爬虫在分布式环境中表现最佳的数据？

4
推荐指数

2
解决办法

2018
查看次数