Bud*_*Joe 16 lucene solr web-crawler
什么是用于HTML和XML文档(本地或基于Web)的良好爬虫(蜘蛛),并且在Lucene/Solr解决方案空间中运行良好?可能是基于Java的,但不一定是.
小智 11
在我看来,这是一个非常重要的漏洞,它阻止了Solr的广泛采用.新的DataImportHandler是导入结构化数据的第一步,但Solr没有一个好的文档摄取管道.Nutch确实有效,但Nutch履带式和Solr之间的集成有些笨拙.
我已经尝试过每一个我都能找到的开源爬虫,而且没有一个与Solr集成开箱即用.
密切关注OpenPipeline和Apache Tika.