词基/词典

AHu*_*ist 3 java dictionary nlp stemming

看来我的Google-fu让我失望了.

有没有人知道一个免费提供的单词基础字典只包含单词的基础?所以,对于像草莓这样的东西,它会有草莓.但是不包含缩写或拼写错误或替代拼写(如英国与美国)?任何可以在Java中快速使用的东西都会很好,但只是一个映射的文本文件或任何可以读入的内容都会有所帮助.

Fre*_*Foo 5

这被称为词形还原,你称之为"词的基础"被称为引理.morpha它在斯坦福POS标签中的重新实现就是这样做的.然而,两者都需要POS标记输入来解决自然语言中固有的歧义.

(POS标记意味着确定单词类别,例如名词,动词.我一直假设你想要一个处理英语的工具.)

编辑:因为您将使用此搜索,这里有一些提示:

  • 简单的英语词汇在搜索引擎世界中享有盛誉.有时候它有效,但往往没有.
  • 自动拼写纠正可能会更好.这就是谷歌所做的.但是,如果你想做正确的话,它在计算时间方面是昂贵的.
  • 词形还原可提供的好处,但可能只有当你索引和搜索为两个词和引理.(相同的建议适用于词干.)
  • 这是Lucene插件,它实现了词形还原.

(前面的评论是基于我自己的研究;我在硕士论文中写了关于非常嘈杂的数据的搜索引擎中的词形还原.)