我们公司有数以千计的PDF文档.我们如何使用Lucene,Solr或Nutch创建一个简单的搜索引擎?我们将提供一个基本的Java/JSP网页,人们可以输入单词并执行基本和/或查询,然后向他们显示所有匹配PDF的文档链接.
我对lucene运气不错,但它不是点击,安装和搜索,它确实需要一些工作.
如果您需要可以下载并安装并在10分钟内搜索的内容,请查看免费的Ominifind Yahoo Edition http://omnifind.ibm.yahoo.net/,它使用Lucene,但是打包以便配置它并且准备运行安装,一个更容易尝试Lucene的方法.
在Nutch中启用Nutch + Lucene + Pdf插件是您的解决方案.Nutch允许您通过启用pdf插件来解析pdf.
Lucene将允许您索引已爬网和已解析的数据,Nutch具有servlet,可为您提供搜索界面.
我们对内部lans使用相同的内容.
Lucene 系列中的项目都不能原生处理 PDF,但您可以使用一些实用程序以及关于如何自行处理 PDF 的编写良好的示例。
Lucene 几乎会做您需要它做的任何事情,但正如 Tony 上面所说,在您的时间方面存在开销。数千个文档实际上并不算多,因此您可能可以使用更轻量级的替代方案。
也就是说,我仍然建议查看 Solr - 它比 Lucene 更容易设置,支持备份、复制等,以及一个非常适合您的用例的漂亮 JSON 接口:http : //wiki.apache.org/solr/SolJSON
归档时间: |
|
查看次数: |
8362 次 |
最近记录: |