小编use*_*241的帖子

spaCy 分词器 LEMMA 和 ORTH 异常不起作用

我正在遵循书中第 2 章中的示例:使用 Python 和 spaCy 进行的自然语言处理,作者:Yuli Vasiliev 2020

在此输入图像描述

该示例假设产生词形还原输出:

[“我”、“是”、“飞行”、“前往”、“弗里斯科”]

['-PRON-', '是', '飞', '飞往', '旧金山']

我收到以下错误:

nlp.tokenizer.add_special_case(u'Frisco', sf_special_case)
  File "spacy\tokenizer.pyx", line 601, in spacy.tokenizer.Tokenizer.add_special_case
  File "spacy\tokenizer.pyx", line 589, in spacy.tokenizer.Tokenizer._validate_special_case
ValueError: [E1005] Unable to set attribute 'LEMMA' in tokenizer exception for 'Frisco'. Tokenizer exceptions are only allowed to specify ORTH and NORM.
Run Code Online (Sandbox Code Playgroud)

有人可以建议解决方法吗?我不确定 SpaCy 版本 3.0.3 是否已更改为不再允许 LEMMA 成为标记器异常的一部分?谢谢!

nlp spacy

6
推荐指数
1
解决办法
2196
查看次数

标签 统计

nlp ×1

spacy ×1