SOLR:从原始文本创建术语向量(例如从TermVectorComponent返回的数据)

Ach*_*him 5 solr

使用http://wiki.apache.org/solr/TermVectorComponent,我可以为存储在索引中的任何文档获取索引术语及其频率。如何在不将文本存储在索引中的情况下获得与文本相同的信息?我只希望SOLR处理文本并返回信息,而不必将文档存储在索引中。

Sri*_*lan 1

AFAIK 如果不在 SOLR 中存储数据,这是不可能的。

如果您想要进行文本分析(我知道这比您要求的更广泛),我会推荐以下替代方案:

  1. MAUI - 提取关键短语和术语。
  2. Gensim - 进行主题建模
  3. Kea - 关键词提取

我还遇到过一些进行术语频率分析的 python 脚本。看看Mincemeat,特别是它进行词频计算的示例。