相关疑难解决方法(0)

Lucene分析仪的比较

有人可以解释Lucene内不同分析仪之间的区别吗?我收到了一个maxClauseCount异常,我明白我可以通过使用KeywordAnalyzer来避免这种情况,但我不想在不了解分析器问题的情况下从StandardAnalyzer进行更改.非常感谢.

lucene analyzer

104
推荐指数
1
解决办法
4万
查看次数

用Lucene扼杀英语单词

我正在Java应用程序中处理一些英文文本,我需要阻止它们.例如,从文字"amenities/amenity"我需要得到"amenit".

该功能如下:

String stemTerm(String term){
   ...
}
Run Code Online (Sandbox Code Playgroud)

我找到了Lucene分析仪,但它看起来太复杂了我需要的东西. http://lucene.apache.org/java/2_2_0/api/org/apache/lucene/analysis/PorterStemFilter.html

有没有办法用它来阻止单词而无需构建分析器?我不了解所有分析仪业务......

编辑:我实际上需要一个词干+词形还原.Lucene可以这样做吗?

java lucene stemming porter-stemmer

28
推荐指数
4
解决办法
6万
查看次数

Java中数据规范化的拼写纠正

我正在寻找一个Java库来对用户生成的文本内容进行初始拼写检查/数据规范化,想象一下在Facebook个人资料中输入的兴趣.

此文本将在某个时刻(在拼写纠正之前或之后,无论哪种方式更好)被标记化,并且其中一些用作搜索(完全匹配)的键.减少拼写错误等会产生更多匹配会很不错.如果校正在令牌上的表现不仅仅比一个单词更好,那将会更好,例如"trinking coffee"将成为"喝咖啡"而不是"思考咖啡".

我找到了以下用于拼写纠正的Java库:

  1. JAZZY似乎没有积极发展.此外,由于在社交网络配置文件和多字令牌中使用非标准语言,基于字典距离的方法似乎不合适.
  2. APACHE LUCENE似乎有一个统计拼写检查器应该更合适.这里的问题是如何创建一个好的字典?(否则我们不使用Lucene,因此没有现有的索引.)

欢迎任何建议!

java lucene spell-checking

8
推荐指数
1
解决办法
4537
查看次数