Spacy 自动将诸如“dont”和“don't”之类的单词缩写标记为“do”和“nt”/“n't”。例如,像“我不明白”这样的句子将被标记为:[“I”, “do”, “nt”, “understand”]。
我知道这在许多 NLP 任务中通常很有帮助,但是有没有办法在 Spacy 中抑制这种特殊的标记化规则,从而使结果变为[“I”、“dont”、“understand”]?
这是因为我正在尝试评估我的自定义 Spacy NER 模型的性能(BIO 标记方案的 f1-score),并且输入句子中的标记数量与谓词标记标记数量的不匹配导致了我的问题评估代码如下:
输入(3 个标记):[("I", "O"), ("dont", "O"), ("understand", "O")]
预测(4 个标记):[("I", "O"), ("do", "O"), ("nt", "O"), ("understand", "O")]
当然,如果有人对 Spacy 中的顺序标记任务执行评估有任何建议(可能类似于seqeval包,但与 Spacy 的标记格式更兼容),我们也将不胜感激。