我已经下载了Spacy英文模型并使用此代码查找引理。
import spacy
nlp = spacy.load('en')
doc = nlp(u'Two apples')
for token in doc:
print(token, token.lemma, token.lemma_)
Run Code Online (Sandbox Code Playgroud)
输出:
Two 11711838292424000352 two
apples 8566208034543834098 apple
Run Code Online (Sandbox Code Playgroud)
现在我想用俄语做同样的事情。但是Spacy没有俄语的模型。但是我看到他们的GitHub语言为俄语,并且我认为该代码可用于查找引理。
我是Spacy的新手。对于那些没有模型的语言,将需要一个起点。我还注意到,对于某些语言,让我们为URDU说一句,他们提供了用于词素化的查找字典。
我想将此内容扩展到所有没有模型的语言。
注意:在上述代码中,我认为可以进一步改进,因为在我的情况下,我仅需要引理即可,那么我可以关闭哪些功能以及如何关闭?
-spaCy最近在Stanford NLP上推出了一个方便的包装器,因此您可以在spaCy管道中无缝使用StanfordNLP好东西:
https://github.com/explosion/spacy-stanfordnlp
代码看起来像这样(未经测试):
import stanfordnlp
from spacy_stanfordnlp import StanfordNLPLanguage
stanfordnlp.download("ru")
snlp = stanfordnlp.Pipeline(lang="ru")
nlp = StanfordNLPLanguage(snlp)
doc = nlp("?????? ???, ??? ??????")
for token in doc:
print(token.text, token.lemma_, token.pos_, token.dep_)
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
681 次 |
| 最近记录: |