NLTK词性的缩写参考

The*_*ist 2 python nlp nltk

我正在使用nltk来查找句子中每个单词的词性.它返回的缩写,我既不能完全直觉,也找不到好的文档.

运行:

import nltk
sample = "There is no spoon."
tokenized_words = nltk.word_tokenize(sample)
tagged_words = nltk.pos_tag(tokenized_words)
print tagged_words
Run Code Online (Sandbox Code Playgroud)

返回:

[('There', 'EX'), ('is', 'VBZ'), ('no', 'DT'), ('spoon', 'NN'), ('.', '.')]
Run Code Online (Sandbox Code Playgroud)

在上面的例子中,我在寻找什么DT,EX以及休息的意思.

到目前为止,我所做的最好的事情是在Python中搜索自然语言处理中关注的缩写词,但必须有更好的东西.我也找到了一些基于文献的资源,但我不知道如何判断哪个nltk正在使用.

Meh*_*hdi 6

您已经提到的链接有两个不同的标记集.

有关标记集文档,请参阅nltk.help.upenn_tagset()nltk.help.brown_tagset().

在此特定示例中,这些标记来自Penn Treebank标记集.

您还可以通过以下方式阅读这些标签:

nltk.help.upenn_tagset('DT')
nltk.help.upenn_tagset('EX')
Run Code Online (Sandbox Code Playgroud)