使用Spacy查找俄语的引理(没有模型的那些lang)

Ham*_*san 3 nlp spacy

我已经下载了Spacy英文模型并使用此代码查找引理。

import spacy
nlp = spacy.load('en')
doc = nlp(u'Two apples')
for token in doc:
    print(token, token.lemma, token.lemma_)
Run Code Online (Sandbox Code Playgroud)

输出:

Two 11711838292424000352 two
apples 8566208034543834098 apple
Run Code Online (Sandbox Code Playgroud)

现在我想用俄语做同样的事情。但是Spacy没有俄语的模型。但是我看到他们的GitHub语言为俄语,并且我认为该代码可用于查找引理。

我是Spacy的新手。对于那些没有模型的语言,将需要一个起点。我还注意到,对于某些语言,让我们为URDU说一句,他们提供了用于词素化的查找字典

我想将此内容扩展到所有没有模型的语言。

注意:在上述代码中,我认为可以进一步改进,因为在我的情况下,我仅需要引理即可,那么我可以关闭哪些功能以及如何关闭?

Dhr*_*hak 8

在此处输入图片说明 -spaCy最近在Stanford NLP上推出了一个方便的包装器,因此您可以在spaCy管道中无缝使用StanfordNLP好东西:

https://github.com/explosion/spacy-stanfordnlp

代码看起来像这样(未经测试):

import stanfordnlp
from spacy_stanfordnlp import StanfordNLPLanguage

stanfordnlp.download("ru")

snlp = stanfordnlp.Pipeline(lang="ru")
nlp = StanfordNLPLanguage(snlp)

doc = nlp("?????? ???, ??? ??????")
for token in doc:
    print(token.text, token.lemma_, token.pos_, token.dep_)
Run Code Online (Sandbox Code Playgroud)


Mik*_*mov 6

你可以ru2这个项目中使用带有俄罗斯模型的 Spacy 。有用。