小词汇词干/词形还原

Iva*_*nko 6 java lucene nlp morphological-analysis elasticsearch

目前我使用'lucene'和'elasticsearch',并有下一个问题.对于词,我需要得到词干形式或引理.例如 :

  • 小狗 - >狗
  • 小猫 - >猫

等等

但我得到了下一个结果:

  • 小狗 - >狗狗
  • 小猫 - > kitti

是否有任何方法(不重要的准备使用库,任何算法,方法等)来获得小型单词形式的根/原始单词形式?

目标语言:俄语.例如 :

  • собачка - >собака
  • кошечка - >кошка

提前致谢!

err*_*ist 3

首先,作为旁注:您尝试做的事情通常不称为词干提取或词形还原。

\n\n

您的第一个问题是将观察到的标记(例如\xd1\x81\xd0\xbe\xd0\xb1\xd0\xb0\xd1\x87\xd0\xba\xd0\xb0)映射到其规范化形式(例如\xd1\x81 \xd0\xbe\xd0\xb1\xd0\xb0\xd0\xba\xd0\xb0SynonymFilter )--天真地,这可以通过创建一个使用SynonymMap将小数形式映射到其规范形式的来完成。但是,您可能会遇到任何自然语言的问题,因为并非所有派生都是明确的:例如,在德语中,M\xc3\xa4del (\'girl\'/\'lass\') 可能是一种小型形式Magd (一个古词意思是“年轻女子”/“女仆”)或“ Made”(“蛆虫”)。

\n\n

消除这两种形式歧义的一种方法是计算每个规范形式出现在给定上下文中的概率(例如前面n 个标记的历史),然后用最可能的规范形式替换小形式(使用定制的规范形式)TokenFilter这样做)--参见例如维基百科词义消歧条目

\n