小编Ale*_*hek的帖子

spaCy:tokenizer_exceptions 的 NORM 部分是什么?

我正在添加tokenizer_exceptions我的语言。我在看'gonna'英语的例子,所以写了如下规则:

'?.?.': [
    {ORTH: "?.", NORM: "????", LEMMA: "???"},
    {ORTH: "?.", NORM: "????????", LEMMA: "????????"}
],
Run Code Online (Sandbox Code Playgroud)

然后当我标记化时,我希望NORM-parts of rule 将在token.norm_(尽管没有任何关于 的文档Token.norm_)。但相反,我看到ORTH-part intoken.norm_并且在token-instance 中没有任何地方我可以看到NORM规则的-part。

那么什么是-member,Token.norm_什么是NORM-rule 的 -parttokenizer_exceptions呢?

python nlp tokenize spacy

1
推荐指数
1
解决办法
920
查看次数

标签 统计

nlp ×1

python ×1

spacy ×1

tokenize ×1