我正在添加tokenizer_exceptions我的语言。我在看'gonna'英语的例子,所以写了如下规则:
'?.?.': [
{ORTH: "?.", NORM: "????", LEMMA: "???"},
{ORTH: "?.", NORM: "????????", LEMMA: "????????"}
],
Run Code Online (Sandbox Code Playgroud)
然后当我标记化时,我希望NORM-parts of rule 将在token.norm_(尽管没有任何关于 的文档Token.norm_)。但相反,我看到ORTH-part intoken.norm_并且在token-instance 中没有任何地方我可以看到NORM规则的-part。
那么什么是-member,Token.norm_什么是NORM-rule 的 -parttokenizer_exceptions呢?