spaCy token.tag_ 完整列表

Question

spaCy token.tag_ 完整列表

thu*_*zhf 10 nlp pos-tagger spacy

token.tag_in的官方文档spaCy如下：

一个细粒度的、更详细的标签，代表词类和标记的一些基本形态信息。这些标签主要被设计为后续模型的良好特性，尤其是句法解析器。它们依赖于语言和树库。标记器经过训练来预测这些细粒度的标签，然后使用映射表将它们缩减为粗粒度的 .pos 标签。

但它没有列出完整的可用标签和每个标签的解释。我在哪里可以找到它？

Answer 1

thu*_*zhf 16

最后我在它spaCy的源代码中找到了它：glossary.py。这个链接解释了不同标签的含义。

截至今天，[this](https://github.com/explosion/spaCy/blob/master/spacy/lang/en/tag_map.py) 链接到我假设的相同数据 (4认同)
您是否找到了以编程方式从 spacy 获取此地图的方法？ (4认同)
这是最新的链接：https://github.com/explosion/spaCy/blob/master/spacy/glossary.py (3认同)
回答我自己的评论 - `Tokenizer` 有正确的方法 - `nlp.tokenizer.vocab.morphology.tag_map` (2认同)

Answer 2

小智 6

的可用值token.tag_是特定于语言的。这里的语言，我指的不是英语或葡萄牙语，而是“en_core_web_sm”或“pt_core_news_sm”。换句话说，它们是特定于语言模型的，并且在 TAG_MAP 中定义，这是可定制和可训练的。如果您不自定义它，它将是该语言的默认 TAG_MAP。

在撰写本答案时，spacy.io/models列出了所有预先训练的模型及其标记方案。

现在，进行解释。如果您正在处理英语或德语文本，那么您很幸运！您可以使用spacy.explain()或访问github 上的术语表以获取完整列表。如果您使用其他语言，token.pos_则值始终是通用依赖项的值，并且无论如何都可以工作。

最后，如果您正在使用其他语言，为了获得标签的完整解释，您将必须在模型页面中列出的源中查找您感兴趣的模型。例如，对于葡萄牙语，我必须跟踪用于训练模型的葡萄牙语 UD Bosque 语料库中标签的解释。

归档时间：	9 年，9 月前
查看次数：	12639 次
最近记录：	4 年，9 月前