我正在尝试使用 Huggingface 的度量实现来评估我的 POS 标记器,seqeval但是,由于我的标记不是为 NER 制作的,因此它们的格式不符合库期望的方式。因此,当我尝试读取分类报告的结果时,特定于类的结果的标签始终缺少第一个字符(如果我通过,则为最后一个字符suffix=True)。
有没有办法禁用标签中的实体识别,或者我是否必须通过带有起始空格的所有标签来解决此问题?(鉴于该库应该适合 POS 标记,我希望有一个内置的解决方案)
from seqeval.metrics import accuracy_score
from seqeval.metrics import classification_report
from seqeval.metrics import f1_score
y_true = [['INT', 'PRO', 'PRO', 'VER:pres'], ['ADV', 'PRP', 'PRP', 'ADV']]
y_pred = [['INT', 'PRO', 'PRO', 'VER:pres'], ['ADV', 'PRP', 'PRP', 'ADV']]
print(classification_report(y_true, y_pred))
Run Code Online (Sandbox Code Playgroud)
| 精确 | 记起 | f1 分数 | 支持 | |
|---|---|---|---|---|
| DV | 1.00 | 1.00 | 1.00 | 2 |
| ER:pre | 1.00 | 1.00 | 1.00 | 1 |
| 新台币 | 1.00 | 1.00 | 1.00 | 1 |
| 反渗透 | 1.00 | 1.00 | 1.00 | 1 |
| RP | 1.00 | 1.00 | 1.00 | 1 … |
python nlp pos-tagger huggingface-transformers huggingface-datasets