如何为stanford tagger创建自己的训练语料库?

goh*_*goh 15 java nlp stanford-nlp

我必须用很多简短的手和当地的术语来分析非正式的英文文本.因此,我正在考虑为斯坦福标记创建模型.

如何为斯坦福标记器创建我自己的标记语料库集?

语料库的语法是什么,我的语料库需要多长时间才能达到理想的性能?

Ken*_*oom 8

要训​​练PoS标记器,请参阅此邮件列表文章,该文章也包含在MaxentTagger类的JavaDocs中.

edu.stanford.nlp.tagger.maxent.Train类的javadoc 指定了训练格式:

训练文件应采用以下格式:每行一个单词和一个标记,用空格或制表符分隔.每个句子应以EOS字标签对结尾.(实际上,我不完全确定仍然如此,但它可能不会受到伤害.-wmorgan)


duh*_*ime 7

基本上,您为培训过程格式化的文本应该在每一行上都有一个标记,后跟一个标签,后跟一个标识符.标识符可以是类似"LOC"的位置,"COR"代表公司,或"0"代表非实体代币.例如

I     0
left     0
my     0
heart     0
in     0
Kansas     LOC
City     LOC
.     0
Run Code Online (Sandbox Code Playgroud)

当我们的团队训练了一系列分类器时,我们为每个训练文件提供了大约180,000个令牌的格式,我们看到了精确度的净改善但是召回的净减少.(值得注意的是,精度的提高在统计上并不显着.)如果它对其他人有用,我描述了我们用来训练分类器的过程以及训练和默认值的p,r和f1值.这里有分类器.