我目前正在使用NLTK的"nltk.pos_tag"进行部分词性标注.我想知道NLTK的标记器是否使用了当前被标记的单词之外的信息来确定单词的POS?
如果没有,NLTK会有一个标记器来执行此操作吗?
在此先感谢您的任何信息!
Jar*_*red 10
该pos_tag函数调用加载pickleat _POS_TAGGER.这是一个可能在Penn Treebank POS注释文本上训练的最大熵标记器.MaxEnt标记用于确定词性的信息将基于训练中使用的特征集.这意味着,它在技术上只能使用单个单词的功能,但这不太可能,因为标记器不准确(并且它不会充分利用机器学习来生成标记器).考虑使用Python进行自然语言处理的第5章中给出的示例,
>>> text = nltk.word_tokenize("They refuse to permit us to obtain the refuse permit")
>>> nltk.pos_tag(text)
[('They', 'PRP'), ('refuse', 'VBP'), ('to', 'TO'), ('permit', 'VB'), ('us', 'PRP'),
('to', 'TO'), ('obtain', 'VB'), ('the', 'DT'), ('refuse', 'NN'), ('permit', 'NN')]
Run Code Online (Sandbox Code Playgroud)
由于"拒绝"和"许可"每个都根据上下文给出不同的标签,我们可以肯定地说它确实使用了先前单词的特征(比如他们的POS标签).
| 归档时间: |
|
| 查看次数: |
743 次 |
| 最近记录: |