Mar*_*ark 15 solr full-text-search solrj solr-cell apache-tika
任何人都可以指点我的教程.
我对Solr的主要经验是索引CSV文件.但我找不到任何简单的说明/教程来告诉我我需要做什么来索引pdfs.
我见过这个:http://wiki.apache.org/solr/ExtractingRequestHandler
但这对我来说毫无意义.我需要安装Tika吗?
我输了 - 请帮忙
Raj*_*ena 17
使用solr-4.9(截至目前的最新版本),从丰富的文档(如pdf,电子表格(xls,xlxs系列),演示文稿(ppt,ppts),文档(doc,txt等))中提取数据变得相当简单.此处下载的存档中提供的示例代码示例 包含一个基本的solr模板项目,可帮助您快速入门.
必要的配置更改如下:
更改solrConfig.xml以包含以下行:
<lib dir="<path_to_extraction_libs>" regex=".*\.jar" />
<lib dir="<path_to_solr_cell_jar>" regex="solr-cell-\d.*\.jar" />
创建请求处理程序,如下所示:
<requestHandler name="/update/extract"
startup="lazy"
class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults" />
</requestHandler>
2.将solrExample中的必要jar添加到项目中.
3.根据您的需要定义架构并触发如下查询:
curl "http://localhost:8983/solr/collection1/update/extract?literal.id=1&literal.filename=testDocToExtractFrom.txt&literal.created_at=2014-07-22+09:50:12.234&commit=true" -F "myfile=@testDocToExtractFrom.txt"
转到GUI门户并查询以查看索引内容.
如果您遇到任何问题,请告诉我.
| 归档时间: |
|
| 查看次数: |
38767 次 |
| 最近记录: |