集成Elasticsearch和Stanford NLP而无需重新编制索引

Roa*_*oam 4 lucene nlp stanford-nlp elasticsearch opennlp

我们一直在系统中使用Elasticsearch.虽然我使用了它的分析仪和查询.我没有深入研究它的索引.截至目前,我不知道ES能让我们在其分片中使用Lucene(倒置)索引的程度.

我们现在正在研究一系列NLP功能 - 一件事是NER而斯坦福NLP很受欢迎.

没有插件可以将这两个包一起工作(?)

我还没有深入了解斯坦福NLP.然而 - 就我所见,它在所有的索引上工作.无论传递给它的任何对象或类型,斯坦福NLP都会将其自身编入索引并从那里开始.

这将使系统为同一组文档(ES和StanfordNLP的文档)工作2个不同的索引,这将是昂贵的.

有办法解决这个问题吗?

我的一个场景是:让StanfordNLP处理Lucene段 - ES已经构建的反向索引.在这种情况下:

1.)StanfordNLP是否使用Lucene索引而不为自己重新索引任何内容?我不知道StanfordNLP的索引结构 - 甚至不知道它使用/不使用Lucene的程度.

2.)在ES分片中使用Lucene索引有任何限制吗?我们是否会直接使用这些Lucene片段,绕过两者之间的ES?

我正试着把事情放在一起 - 现在都在空中.抱歉天真Q.

我知道OpenNLP及其插件.我没有检查 - 我猜它不会是"双索引"并使用ES的索引(?)但是,我们追求的是StanfordNLP.

TIA.

Chr*_*ing 6

斯坦福NER既不使用Lucene/SOLR索引,也不使用自己的文本索引.它将一段文本或标记序列映射到具有NER注释的标记序列.

通常,您会在摄取时,在标记化时,索引之前对每个文档运行NER,然后为每个文档索引实体和单词.

我知道斯坦福NER没有现有的ElasticSearch插件,但是看看人们如何使用Solr完成此操作可能会提供信息:http://www.searchbox.com/named-entity-recognition-ner-in-solr/.Solr和ElasticSearch都在内部使用Lucene Analyzers和索引.