相关疑难解决方法(0)

spaCy:词汇中的单词

我尝试使用 spaCy 进行拼写错误纠正,为此我需要知道词汇表中是否存在某个单词。如果没有,我们的想法是将单词分成两部分,直到所有片段都存在。例如,“ofthe”不存在,“of”和“the”存在。所以我首先需要知道词汇表中是否存在某个单词。这就是问题开始的地方。我尝试:

for token in nlp("apple"):
    print(token.lemma_, token.lemma, token.is_oov, "apple" in nlp.vocab)
apple 8566208034543834098 True True

for token in nlp("andshy"):
    print(token.lemma_, token.lemma, token.is_oov, "andshy" in nlp.vocab)
andshy 4682930577439079723 True True
Run Code Online (Sandbox Code Playgroud)

很明显,这是没有意义的,在这两种情况下“is_oov”都是 True,并且它在词汇表中。我正在寻找简单的东西,比如

"andshy" in nlp.vocab = False, "andshy".is_oov = True
"apple" in nlp.vocab = True, "apple".is_oov = False
Run Code Online (Sandbox Code Playgroud)

下一步,还有一些文字纠正方法。我可以使用拼写检查器库,但这与 spaCy 词汇不一致

这个问题似乎是一个常见问题,非常欢迎任何建议(代码)。

谢谢,

阿赫

vocabulary spacy

6
推荐指数
1
解决办法
6687
查看次数

标签 统计

spacy ×1

vocabulary ×1