Chr*_*ris 4 stemming porter-stemmer
我正在寻找克罗地亚语词干算法的实现.理想情况下在Java,但我也会接受任何其他语言.
是否有某个英语口语开发者社区正在为克罗地亚语言开发搜索应用程序?
谢谢,
斯拉夫语言非常具有选择性.最准确和最快速的方法是规则和大型映射/字典的组合.
工作已经完成,但一直受阻.克罗地亚形态词汇将有所帮助,但它是一个缓慢的API背后.在波斯尼亚人,塞尔维亚人和克罗地亚人之间可以找到更多的工作,而不仅仅是克罗地亚人.
大映射并不总是方便(并且可以从映射/字典/语料库有效地构建更好的规则变换器).
使用Hunspell和affix文件实现可能是获得社区和Java支持的好方法.例如.谷歌搜索:hr_hr.aff
未经测试:应该能够反转所有单词,构建结尾字符的trie,使用一些规则(例如LCS)遍历并使用语料库文本构建精确的统计变换器.
我能做的最好的是一些python:
import hunspell
hs = hunspell.HunSpell(
'/usr/share/myspell/hr_HR.dic',
'/usr/share/myspell/hr_HR.aff')
# The following should return ['hrvatska']:
print hs.stem('hrvatski')
Run Code Online (Sandbox Code Playgroud)