NLTK词性标注器是使用全局信息还是仅使用被标记的单词？

Question

NLTK词性标注器是使用全局信息还是仅使用被标记的单词？

我目前正在使用NLTK的"nltk.pos_tag"进行部分词性标注.我想知道NLTK的标记器是否使用了当前被标记的单词之外的信息来确定单词的POS？

如果没有,NLTK会有一个标记器来执行此操作吗？

在此先感谢您的任何信息!

Answer 1

该pos_tag函数调用加载pickleat _POS_TAGGER.这是一个可能在Penn Treebank POS注释文本上训练的最大熵标记器.MaxEnt标记用于确定词性的信息将基于训练中使用的特征集.这意味着,它在技术上只能使用单个单词的功能,但这不太可能,因为标记器不准确(并且它不会充分利用机器学习来生成标记器).考虑使用Python进行自然语言处理的第5章中给出的示例,

>>> text = nltk.word_tokenize("They refuse to permit us to obtain the refuse permit")
>>> nltk.pos_tag(text)
[('They', 'PRP'), ('refuse', 'VBP'), ('to', 'TO'), ('permit', 'VB'), ('us', 'PRP'),
('to', 'TO'), ('obtain', 'VB'), ('the', 'DT'), ('refuse', 'NN'), ('permit', 'NN')]

Run Code Online (Sandbox Code Playgroud)

由于"拒绝"和"许可"每个都根据上下文给出不同的标签,我们可以肯定地说它确实使用了先前单词的特征(比如他们的POS标签).

归档时间：	12 年，10 月前
查看次数：	743 次
最近记录：	12 年，10 月前