Suk*_*mar 5 tags parsing solr tokenize
如何获得与http://developer.yahoo.com/search/content/V1/termExtraction.html相同的结果
这个问题之前已被问过很多次了.
尝试使用现有解决方案来解决这个问题我偶然发现"文本分析"Solr在索引之前对文档执行,如http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters中所述 - 其中也包括词干.
因此,最终索引将主要包括用于描述文档的术语.
是否有解决方案可以直接使用分析器,标记器和令牌过滤器?如果solr是出路,那么从solr索引获取这些数据的最佳方法是什么?
Solr 是一种创建自定义搜索引擎的方法。它似乎不是适合这项工作的工具。关于术语提取的维基百科文章在其“外部链接”部分列出了几个用于术语提取的 Web 应用程序。OpenNLP有一个可能有用的工具列表。它的分块器可能会有所帮助。
| 归档时间: |
|
| 查看次数: |
3910 次 |
| 最近记录: |