使用Spacy查找俄语的引理（没有模型的那些lang）

Question

使用Spacy查找俄语的引理（没有模型的那些lang）

我已经下载了Spacy英文模型并使用此代码查找引理。

import spacy
nlp = spacy.load('en')
doc = nlp(u'Two apples')
for token in doc:
    print(token, token.lemma, token.lemma_)

Run Code Online (Sandbox Code Playgroud)

输出：

Two 11711838292424000352 two
apples 8566208034543834098 apple

Run Code Online (Sandbox Code Playgroud)

现在我想用俄语做同样的事情。但是Spacy没有俄语的模型。但是我看到他们的GitHub语言为俄语，并且我认为该代码可用于查找引理。

我是Spacy的新手。对于那些没有模型的语言，将需要一个起点。我还注意到，对于某些语言，让我们为URDU说一句，他们提供了用于词素化的查找字典。

我想将此内容扩展到所有没有模型的语言。

注意：在上述代码中，我认为可以进一步改进，因为在我的情况下，我仅需要引理即可，那么我可以关闭哪些功能以及如何关闭？

Answer 1

Dhr*_*hak 8

如果没有模型，这在spacy中并不是最佳的。
StanfordNLP具有更多的语言覆盖范围，并且具有俄语语言模型：https : //stanfordnlp.github.io/stanfordnlp/installation_download.html

-spaCy最近在Stanford NLP上推出了一个方便的包装器，因此您可以在spaCy管道中无缝使用StanfordNLP好东西：

https://github.com/explosion/spacy-stanfordnlp

代码看起来像这样（未经测试）：

import stanfordnlp
from spacy_stanfordnlp import StanfordNLPLanguage

stanfordnlp.download("ru")

snlp = stanfordnlp.Pipeline(lang="ru")
nlp = StanfordNLPLanguage(snlp)

doc = nlp("?????? ???, ??? ??????")
for token in doc:
    print(token.text, token.lemma_, token.pos_, token.dep_)

Run Code Online (Sandbox Code Playgroud)

Answer 2

Mik*_*mov 6

你可以ru2在这个项目中使用带有俄罗斯模型的 Spacy 。有用。

归档时间：	6 年，11 月前
查看次数：	681 次
最近记录：	6 年，6 月前