thu*_*zhf 10 nlp pos-tagger spacy
token.tag_in的官方文档spaCy如下:
一个细粒度的、更详细的标签,代表词类和标记的一些基本形态信息。这些标签主要被设计为后续模型的良好特性,尤其是句法解析器。它们依赖于语言和树库。标记器经过训练来预测这些细粒度的标签,然后使用映射表将它们缩减为粗粒度的 .pos 标签。
但它没有列出完整的可用标签和每个标签的解释。我在哪里可以找到它?
thu*_*zhf 16
最后我在它spaCy的源代码中找到了它:glossary.py。这个链接解释了不同标签的含义。
小智 6
的可用值token.tag_是特定于语言的。这里的语言,我指的不是英语或葡萄牙语,而是“en_core_web_sm”或“pt_core_news_sm”。换句话说,它们是特定于语言模型的,并且在 TAG_MAP 中定义,这是可定制和可训练的。如果您不自定义它,它将是该语言的默认 TAG_MAP。
在撰写本答案时,spacy.io/models列出了所有预先训练的模型及其标记方案。
现在,进行解释。如果您正在处理英语或德语文本,那么您很幸运!您可以使用spacy.explain()或访问github 上的术语表以获取完整列表。如果您使用其他语言,token.pos_则值始终是通用依赖项的值,并且无论如何都可以工作。
最后,如果您正在使用其他语言,为了获得标签的完整解释,您将必须在模型页面中列出的源中查找您感兴趣的模型。例如,对于葡萄牙语,我必须跟踪用于训练模型的葡萄牙语 UD Bosque 语料库中标签的解释。