Sha*_*fiq 10 java apache web-crawler nutch
我正在使用nutch 2.3.所有作业一个接一个地运行,即第一个生成器,获取,解析,索引等.我想同时运行一些作业.我知道有些作业不能并行运行,但其他作业可以解析作业,dbupdate,indexjob应该用fetch运行.
可能吗 ?我的基本目标是始终运行fetcher工作.我想我们可以用不同的时间戳来做到这一点.任何人都可以指导我正确的方式吗?
如果你看看nutch web app服务器,你会发现它可以并行执行多个抓取工作.你应该查看Nutch 2.3 for webapp [NutchUiServer]的源代码.希望这可以帮助.
归档时间: |
|
查看次数: |
284 次 |
最近记录: |