我正在添加tokenizer_exceptions
我的语言。我在看'gonna'
英语的例子,所以写了如下规则:
'?.?.': [
{ORTH: "?.", NORM: "????", LEMMA: "???"},
{ORTH: "?.", NORM: "????????", LEMMA: "????????"}
],
Run Code Online (Sandbox Code Playgroud)
然后当我标记化时,我希望NORM
-parts of rule 将在token.norm_
(尽管没有任何关于 的文档Token.norm_
)。但相反,我看到ORTH
-part intoken.norm_
并且在token
-instance 中没有任何地方我可以看到NORM
规则的-part。
那么什么是-member,Token.norm_
什么是NORM
-rule 的 -parttokenizer_exceptions
呢?