我们如何使用Lucene,Solr或Nutch创建一个简单的搜索引擎？

Question

我们如何使用Lucene,Solr或Nutch创建一个简单的搜索引擎？

我们公司有数以千计的PDF文档.我们如何使用Lucene,Solr或Nutch创建一个简单的搜索引擎？我们将提供一个基本的Java/JSP网页,人们可以输入单词并执行基本和/或查询,然后向他们显示所有匹配PDF的文档链接.

Answer 1

我对lucene运气不错,但它不是点击,安装和搜索,它确实需要一些工作.
如果您需要可以下载并安装并在10分钟内搜索的内容,请查看免费的Ominifind Yahoo Edition http://omnifind.ibm.yahoo.net/,它使用Lucene,但是打包以便配置它并且准备运行安装,一个更容易尝试Lucene的方法.

Answer 2

Sum*_*osh 6

在Nutch中启用Nutch + Lucene + Pdf插件是您的解决方案.Nutch允许您通过启用pdf插件来解析pdf.

Lucene将允许您索引已爬网和已解析的数据,Nutch具有servlet,可为您提供搜索界面.

我们对内部lans使用相同的内容.

Answer 3

Jam*_*ady 3

Lucene 系列中的项目都不能原生处理 PDF，但您可以使用一些实用程序以及关于如何自行处理 PDF 的编写良好的示例。

Lucene 几乎会做您需要它做的任何事情，但正如 Tony 上面所说，在您的时间方面存在开销。数千个文档实际上并不算多，因此您可能可以使用更轻量级的替代方案。

也就是说，我仍然建议查看 Solr - 它比 Lucene 更容易设置，支持备份、复制等，以及一个非常适合您的用例的漂亮 JSON 接口：http : //wiki.apache.org/solr/SolJSON

归档时间：	17 年，4 月前
查看次数：	8362 次
最近记录：	15 年，1 月前