spaCy token.tag_ 完整列表

thu*_*zhf 10 nlp pos-tagger spacy

token.tag_in的官方文档spaCy如下:

一个细粒度的、更详细的标签,代表词类和标记的一些基本形态信息。这些标签主要被设计为后续模型的良好特性,尤其是句法解析器。它们依赖于语言和树库。标记器经过训练来预测这些细粒度的标签,然后使用映射表将它们缩减为粗粒度的 .pos 标签。

但它没有列出完整的可用标签和每个标签的解释。我在哪里可以找到它?

thu*_*zhf 16

最后我在它spaCy的源代码中找到了它:glossary.py。这个链接解释了不同标签的含义。

  • 截至今天,[this](https://github.com/explosion/spaCy/blob/master/spacy/lang/en/tag_map.py) 链接到我假设的相同数据 (4认同)
  • 您是否找到了以编程方式从 spacy 获取此地图的方法? (4认同)
  • 这是最新的链接:https://github.com/explosion/spaCy/blob/master/spacy/glossary.py (3认同)
  • 回答我自己的评论 - `Tokenizer` 有正确的方法 - `nlp.tokenizer.vocab.morphology.tag_map` (2认同)

小智 6

的可用值token.tag_是特定于语言的。这里的语言,我指的不是英语或葡萄牙语,而是“en_core_web_sm”或“pt_core_news_sm”。换句话说,它们是特定于语言模型的,并且在 TAG_MAP 中定义,这是可定制和可训练的。如果您不自定义它,它将是该语言的默认 TAG_MAP。

在撰写本答案时,spacy.io/models列出了所有预先训练的模型及其标记方案。

现在,进行解释。如果您正在处理英语或德语文本,那么您很幸运!您可以使用spacy.explain()或访问github 上的术语表以获取完整列表。如果您使用其他语言,token.pos_则值始终是通用依赖项的值,并且无论如何都可以工作。

最后,如果您正在使用其他语言,为了获得标签的完整解释,您将必须在模型页面中列出的源中查找您感兴趣的模型。例如,对于葡萄牙语,我必须跟踪用于训练模型的葡萄牙语 UD Bosque 语料库中标签的解释。