有关与Lucene或Solr一起使用的蜘蛛工具的建议吗？

Question

有关与Lucene或Solr一起使用的蜘蛛工具的建议吗？

什么是用于HTML和XML文档(本地或基于Web)的良好爬虫(蜘蛛),并且在Lucene/Solr解决方案空间中运行良好？可能是基于Java的,但不一定是.

Answer 1

在我看来,这是一个非常重要的漏洞,它阻止了Solr的广泛采用.新的DataImportHandler是导入结构化数据的第一步,但Solr没有一个好的文档摄取管道.Nutch确实有效,但Nutch履带式和Solr之间的集成有些笨拙.
我已经尝试过每一个我都能找到的开源爬虫,而且没有一个与Solr集成开箱即用.
密切关注OpenPipeline和Apache Tika.

Answer 2

Joh*_*ohn 6

我尝试过nutch,但很难与Solr集成.我会看看Heritrix.它有一个广泛的插件系统,可以很容易地与Solr集成,并且它在爬行时要快得多.它广泛使用线程来加速进程.

归档时间：	17 年，3 月前
查看次数：	6610 次
最近记录：	12 年，12 月前