如何获取每个 Spacy NER 实体的描述?

Emi*_*tti 7 named-entity-recognition spacy spacy-3

我正在使用Spacy NER 模型从文本中提取一些与我的问题相关的命名实体,例如日期、时间、GPE 等。

例如,我需要识别以下句子中的时区:

"Australian Central Time"
Run Code Online (Sandbox Code Playgroud)

使用 Spacy 模型en_core_web_lg,我得到以下结果:

doc = nlp("Australian Central Time")
print([(ent.label_, ent.text) for ent in doc.ents])
    
>> [('NORP', 'Australian')]
Run Code Online (Sandbox Code Playgroud)

我的问题是:我不清楚实体的确切含义NORP以及更一般的每个 Spacy NER 实体的确切含义(当然不考虑直观值)。

我找到了以下代码片段来获取完整的实体列表,但之后我被阻止了:

import spacy
nlp = spacy.load("en_core_web_lg")
nlp.get_pipe("ner").labels
Run Code Online (Sandbox Code Playgroud)

我对使用 Spacy NLP 还很陌生,并且在官方文档中没有找到我想要的内容,因此我们将不胜感激!

顺便说一句,我正在使用 Spacy 版本3.2.1

aab*_*aab 7

大多数标签都有定义,您可以使用 访问spacy.explain(label)

对于NORP:“民族或宗教或政治团体”

有关更多详细信息,您需要查看https://spacy.io/models/下的模型文档中列出的资源的注释指南。


Huy*_*yen 6

整个列表如下。截至2023年2月,英文模型中有18个标签。

\n
PERSON:      People, including fictional.\nNORP:        Nationalities or religious or political groups.\nFAC:         Buildings, airports, highways, bridges, etc.\nORG:         Companies, agencies, institutions, etc.\nGPE:         Countries, cities, states.\nLOC:         Non-GPE locations, mountain ranges, bodies of water.\nPRODUCT:     Objects, vehicles, foods, etc. (Not services.)\nEVENT:       Named hurricanes, battles, wars, sports events, etc.\nWORK_OF_ART: Titles of books, songs, etc.\nLAW:         Named documents made into laws.\nLANGUAGE:    Any named language.\nDATE:        Absolute or relative dates or periods.\nTIME:        Times smaller than a day.\nPERCENT:     Percentage, including \xe2\x80\x9d%\xe2\x80\x9c.\nMONEY:       Monetary values, including unit.\nQUANTITY:    Measurements, as of weight or distance.\nORDINAL:     \xe2\x80\x9cfirst\xe2\x80\x9d, \xe2\x80\x9csecond\xe2\x80\x9d, etc.\nCARDINAL:    Numerals that do not fall under another type.\n
Run Code Online (Sandbox Code Playgroud)\n

资料来源:Medium 上的 Mikael Davidsson

\n