使用Solr索引PDF

Mar*_*ark 15 solr full-text-search solrj solr-cell apache-tika

任何人都可以指点我的教程.

我对Solr的主要经验是索引CSV文件.但我找不到任何简单的说明/教程来告诉我我需要做什么来索引pdfs.

我见过这个:http://wiki.apache.org/solr/ExtractingRequestHandler

但这对我来说毫无意义.我需要安装Tika吗?

我输了 - 请帮忙

Raj*_*ena 17

使用solr-4.9(截至目前的最新版本),从丰富的文档(如pdf,电子表格(xls,xlxs系列),演示文稿(ppt,ppts),文档(doc,txt等))中提取数据变得相当简单.此处下载的存档中提供的示例代码示例 包含一个基本的solr模板项目,可帮助您快速入门.

必要的配置更改如下:

  1. 更改solrConfig.xml以包含以下行:

    <lib dir="<path_to_extraction_libs>" regex=".*\.jar" /> <lib dir="<path_to_solr_cell_jar>" regex="solr-cell-\d.*\.jar" />

创建请求处理程序,如下所示:

<requestHandler name="/update/extract" startup="lazy" class="solr.extraction.ExtractingRequestHandler" > <lst name="defaults" /> </requestHandler>

2.将solrExample中的必要jar添加到项目中.

3.根据您的需要定义架构并触发如下查询:

curl "http://localhost:8983/solr/collection1/update/extract?literal.id=1&literal.filename=testDocToExtractFrom.txt&literal.created_at=2014-07-22+09:50:12.234&commit=true" -F "myfile=@testDocToExtractFrom.txt"

转到GUI门户并查询以查看索引内容.

如果您遇到任何问题,请告诉我.

  • 这已经索引了 pdf 文档,但是当我搜索 pdf 中的内容时,它没有显示任何结果。我们怎样才能做到这一点? (2认同)

Mar*_*ark 2

其中最困难的部分是从 PDF 中获取元数据,使用Aperture等工具可以简化此过程。这些工具一定有很多

Aperture 是一个 Java 框架,用于从 PDF 文件中提取和查询全文内容和元数据

Apeture 从 PDF 中获取元数据并将其存储在 xml 文件中。

我使用lxml解析xml文件并将它们发布到solr