如何索引PDF文件并搜索关键字?

Thi*_*ode 8 python pdf indexing solr

我所拥有的是一堆PDF(少数100个).它们没有适当的结构,也没有特定的领域.他们所拥有的只是很多文字.

我想做什么:

索引PDF并根据索引搜索一些关键字.我有兴趣查找特定关键字是否在PDF文档中,如果是,我想要找到关键字所在的行.如果我在具有该术语的PDF文档中搜索"Google",我希望看到"Google是一个很棒的搜索引擎",这是PDF中的一行.

我是怎么做的:

要么使用SOLR,要么使用Whoosh,但SOLR看起来很适合内置的PDF支持.我更喜欢用Python编写代码,而Sunburst是我喜欢的SOLR的包装器.SOLR的示例/示例项目有一些基于价格比较的模式文件.现在我不确定我是否可以使用SOLR来回答我的问题.

你们有什么建议?任何输入都非常感谢.

The*_*ndr 5

我认为Solr符合您的需求.

您正在寻找"突出显示"功能..为此您必须索引并将文档存储在lucene索引中.

突出显示功能返回剪切,搜索的文本被标记.

看看这个:http://wiki.apache.org/solr/HighlightingParameters