寻找具有不同形式的英语单词的数据库或文本文件

Maj*_*abi 4 nlp stemming lemmatization

我正在研究一个项目,我需要得到一个给定单词的根(词干).如您所知,不使用字典的词干算法并不准确.我也尝试了WordNet,但这对我的项目并不好.我找到了phpmorphy项目,但它不包含Java中的API.

这时我正在寻找一个包含不同形式的英语单词的数据库或文本文件.例如:

跑跑跑...包括包括......

感谢您的帮助或建议.

Dan*_*ber 8

你可以下载LanguageTool(免责声明:我是维护者),它附带一个二进制文件english.dict.LanguageTool Wiki描述了如何将该文件转储为文本文件:

java -jar morfologik-tools-1.6.0-standalone.jar fsa_dump -x -d english.dict
Run Code Online (Sandbox Code Playgroud)

对于run,该文件将包含此:

ran run VBD
run run NN
run run VB
run run VBN
run run VBP
running run VBG
runs run NNS
runs run VBZ
Run Code Online (Sandbox Code Playgroud)

第一列是变形形式,第二列是基本形式,第三列是根据(略微扩展的)Penn Treebank标记集的词性标记.

  • [wiki](http://wiki.languagetool.org/developing-a-tagger-dictionary#toc​​2)有一个适用于LanguageTool 3.9的命令:`java -cp languagetool.jar org.languagetool.tools.DictionaryExporter -i org/languagetool/resource/en/english.dict -info org/languagetool/resource/en/english.info -o dictionary.dump` (2认同)