Nay*_*ayn 3 java web-crawler nutch
我遇到了一个开源爬虫Bixo.有人试过吗?你能分享一下学习吗?我们能否轻松构建定向爬虫(与Nutch/Heritrix相比)?谢谢Nayn
小智 8
我在一个大型社交网站(每天100M页面浏览量)中使用Bixo进行用户内容分类(基本上是用户在其中生成链接的任何内容).
使用Cascading来进行相当复杂的工作流程
如果你知道级联,那么Bixo就像任何其他级联组件一样,基本上期望URL作为输入,并将一堆页面相关信息作为输出发出.
我在开始时低估的一件事是,对于许多垂直爬行者而言,爬行方面只是拼图中的一小部分.围绕它的整个工作流程可能变得非常复杂,如果您使用另一个孤立的爬虫产品,您需要找到一种集成它的方法.使用Cascading的Bixo只是您工作流程的另一个输入.
Bixo本身似乎非常扎实.Ken Krugler(首席开发人员)具有超级响应能力,能够解决一天内我遇到的一些悬而未决的问题(我的数据集中包含大量"脏"URL).他有一个非常全面的自动化测试套件,确保Bixo按设计工作.
总的来说,我不能高度推荐它.整个系统是由我在6-9个月内构建的,我不认为我可以在那段时间内完成它.
| 归档时间: |
|
| 查看次数: |
1609 次 |
| 最近记录: |