Nea*_*ers 0 indexing search open-source full-text-search shared-libraries
我刚刚发现了Lucene(Java库)并开始阅读它.
我有兴趣学习一些文学作品(例如,Philo,Josephus),并对它们编制索引,然后进行以下类型的分析(类似于一些圣经软件程序所做的):
1)在单词y的2或3个单词内找到单词x
2)找到"*手*的工作*" - 会找到"你手中的作品","他手中的作品"等......
3)找到文学模式(也称为"motiffs"),例如作者使用短语"在那一天".(我认为这可能是最棘手的,可能必须找到2-7个单词短语的所有组合然后计算它们并对它们进行排名,例如仅显示前25个).例如,这可能表明Josephus喜欢使用一组短语,而Philo则喜欢使用另一组短语.
你会推荐哪些开源库?我的语言偏好可能是1)Python,2)C#,3)Java.理想情况下,不依赖于任何专有数据库.
谢谢,
尼尔