是什么创造了`maxent_treebank_pos_tagger/english.pickle`?

zku*_*rtz 10 nlp nltk part-of-speech python-2.7

nltk包的内置部分的语音恶搞似乎并没有对我的使用情况进行优化(在这里,例如).这里源代码显示它使用了一个被保存的预训练分类器maxent_treebank_pos_tagger.

创造了maxent_treebank_pos_tagger/english.pickle什么?我猜测那里有一个标记语料库用于训练这个标记器,所以我想我正在寻找(a)标记语料库和(b)基于标记训练标记器的确切代码语料库.

除了大量的谷歌搜索,到目前为止,我试图.pickle直接查看对象,找到其中的任何线索,从这开始

from nltk.data import load
x = load("nltk_data/taggers/maxent_treebank_pos_tagger/english.pickle")
dir(x)
Run Code Online (Sandbox Code Playgroud)

alv*_*vas 6

该NLTK源是https://github.com/nltk/nltk/blob/develop/nltk/tag/ 初始化的.py#L83

NLTK的MaxEnt POS标记器的原始来源是https://github.com/arne-cl/nltk-maxent-pos-tagger

培训数据:华尔街日报宾夕法尼亚银行银行语料库的子集

特征:Ratnaparki(1996)

算法:最大熵

准确性:nltk pos_tagger的准确度是多少?