Apache Nutch工作器实例的最大数量

San*_*all 7 hadoop nutch

使用一个主节点可以同时运行的Apache Nutch爬虫程序实例的最大数量是多少?

Jul*_*che 1

不清楚爬虫实例的含义。如果您想并行运行爬网脚本多次,例如您有具有单独配置、种子等的不同爬网,那么它们将竞争 Hadoop 集群上的插槽。然后,它将归结为集群上有多少个可用的映射器/减速器插槽,这本身取决于有多少个从站。

并行处理多个 Nutch 爬网可能会变得非常棘手并且资源效率低下。相反,重新考虑您的架构,以便所有逻辑爬虫都可以作为单个物理爬虫运行,或者查看StormCrawler,它应该更适合执行此操作。