Kno*_*uch 18 python nlp text-parsing nltk pos-tagger
当我分块文本时,我在输出中得到了很多代码
NN, VBD, IN, DT, NNS, RB
.是否有某个列表记录在哪里告诉我这些的含义?我试过谷歌搜索nltk chunk code
nltk chunk grammar
nltk chunk tokens
.
但我无法找到任何解释这些代码含义的文档.
alv*_*vas 15
您看到的标签不是块的结果,而是在分块之前发生的POS标记.它是Penn Treebank标签集,请参阅https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html
>>> from nltk import word_tokenize, pos_tag, ne_chunk
>>> sent = "This is a Foo Bar sentence."
# POS tag.
>>> nltk.pos_tag(word_tokenize(sent))
[('This', 'DT'), ('is', 'VBZ'), ('a', 'DT'), ('Foo', 'NNP'), ('Bar', 'NNP'), ('sentence', 'NN'), ('.', '.')]
>>> tagged_sent = nltk.pos_tag(word_tokenize(sent))
# Chunk.
>>> ne_chunk(tagged_sent)
Tree('S', [('This', 'DT'), ('is', 'VBZ'), ('a', 'DT'), Tree('ORGANIZATION', [('Foo', 'NNP'), ('Bar', 'NNP')]), ('sentence', 'NN'), ('.', '.')])
Run Code Online (Sandbox Code Playgroud)
要获取块,请在分块输出中查找子树.从上面的输出中,Tree('ORGANIZATION', [('Foo', 'NNP'), ('Bar', 'NNP')])
表示块.
本教程网站非常有助于解释NLTK中的分块过程:http://www.eecis.udel.edu/~trnka/CISC889-11S/lectures/dongqing-chunking.pdf .
有关官方文档,请参阅http://www.nltk.org/howto/chunk.html
即使以上链接各种各样。但是希望这对某人仍然有帮助,并补充了一些其他链接上缺少的内容。
CC:协调连词
CD:基数
DT:确定者
EX:存在
FW:外来词
IN:介词或从属连词
JJ:形容词
副总裁:动词短语
JJR:形容词,比较
JJS:形容词,最高级
LS:清单项目标记
MD:模态
NN:名词,奇数或质量
NNS:名词,复数
PP:介词短语
NNP:专有名词,单数短语
NNPS:专有名词,复数
PDT:预先确定者
POS:所有格
PRP:人称代词短语
PRP:所有代词短语
RB:副词
RBR:副词,比较
RBS:副词,最高级
RP:粒子
S:简单的声明性子句
SBAR:由(可能为空)从属连词引入的子句
SBARQ:由口号或口语短语引入的直接问题。
SINV:陈述句的倒序,即主语遵循张紧动词或模态的句子。
SQ:在SBARQ中的用语短语之后,倒置是/否问题或wh-疑问句的主要子句。
SYM:符号
VBD:动词,过去时
VBG:动词,动名词或现在分词
VBN:动词,过去分词
VBP:动词,非第三人称单数礼物
VBZ:动词,第三人称单数礼物
WDT:决定因素
WP:Wh代词
WP:所有格代词
WRB:Wh-副词
归档时间: |
|
查看次数: |
13483 次 |
最近记录: |