开源/源文本索引和搜索的建议

Nea*_*ers 0 indexing search open-source full-text-search shared-libraries

我刚刚发现了Lucene(Java库)并开始阅读它.

我有兴趣学习一些文学作品(例如,Philo,Josephus),并对它们编制索引,然后进行以下类型的分析(类似于一些圣经软件程序所做的):

1)在单词y的2或3个单词内找到单词x

2)找到"*手*的工作*" - 会找到"你手中的作品","他手中的作品"等......

3)找到文学模式(也称为"motiffs"),例如作者使用短语"在那一天".(我认为这可能是最棘手的,可能必须找到2-7个单词短语的所有组合然后计算它们并对它们进行排名,例如仅显示前25个).例如,这可能表明Josephus喜欢使用一组短语,而Philo则喜欢使用另一组短语.

你会推荐哪些开源库?我的语言偏好可能是1)Python,2)C#,3)Java.理想情况下,不依赖于任何专有数据库.

谢谢,

尼尔

Ara*_*ram 5

在人气,社区,活动和工具方面,Lucene是我认为最好的.我建议你看一下建在Lucene之上的Solr.我找到的另一个开源索引框架是Egothor,我不确定采用率是多少.

而且这里有一个调查,可能将帮助你选择是正确的.

在这里,您可以找到更多的开源和商业图书馆.我见过他们中很少有人支持超过1种编程语言的绑定.如果您决定使用Lucene,那么您可能需要Luke进行调试.