On:Heritrix Usecases有一个"仅存储成功的HTML页面"的用例
我的问题:我不知道如何在我的cxml文件中实现它.特别是:将ContentTypeRegExpFilter添加到ARCWriterProcessor =>将其正则表达式设置为text/html.*....示例cxml Files中没有ContentTypeRegExpFilter.
我们需要每两周抓取大量(约15亿)网页.速度,因此成本,对我们来说是一个巨大的因素,因为我们最初的尝试最终耗费了我们超过2万美元.
是否有关于哪个爬虫在分布式环境中表现最佳的数据?