术语提取:从文本生成标签

Question

这个问题之前已被问过很多次了.

尝试使用现有解决方案来解决这个问题我偶然发现"文本分析"Solr在索引之前对文档执行,如http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters中所述 - 其中也包括词干.

因此,最终索引将主要包括用于描述文档的术语.

是否有解决方案可以直接使用分析器,标记器和令牌过滤器？如果solr是出路,那么从solr索引获取这些数据的最佳方法是什么？

Answer 1

Solr 是一种创建自定义搜索引擎的方法。它似乎不是适合这项工作的工具。关于术语提取的维基百科文章在其“外部链接”部分列出了几个用于术语提取的 Web 应用程序。OpenNLP有一个可能有用的工具列表。它的分块器可能会有所帮助。