有人可以解释Lucene内不同分析仪之间的区别吗?我收到了一个maxClauseCount异常,我明白我可以通过使用KeywordAnalyzer来避免这种情况,但我不想在不了解分析器问题的情况下从StandardAnalyzer进行更改.非常感谢.
我正在Java应用程序中处理一些英文文本,我需要阻止它们.例如,从文字"amenities/amenity"我需要得到"amenit".
该功能如下:
String stemTerm(String term){
...
}
Run Code Online (Sandbox Code Playgroud)
我找到了Lucene分析仪,但它看起来太复杂了我需要的东西. http://lucene.apache.org/java/2_2_0/api/org/apache/lucene/analysis/PorterStemFilter.html
有没有办法用它来阻止单词而无需构建分析器?我不了解所有分析仪业务......
编辑:我实际上需要一个词干+词形还原.Lucene可以这样做吗?
我正在寻找一个Java库来对用户生成的文本内容进行初始拼写检查/数据规范化,想象一下在Facebook个人资料中输入的兴趣.
此文本将在某个时刻(在拼写纠正之前或之后,无论哪种方式更好)被标记化,并且其中一些用作搜索(完全匹配)的键.减少拼写错误等会产生更多匹配会很不错.如果校正在令牌上的表现不仅仅比一个单词更好,那将会更好,例如"trinking coffee"将成为"喝咖啡"而不是"思考咖啡".
我找到了以下用于拼写纠正的Java库:
欢迎任何建议!