如何为stanford tagger创建自己的训练语料库？

Question

我必须用很多简短的手和当地的术语来分析非正式的英文文本.因此,我正在考虑为斯坦福标记创建模型.

如何为斯坦福标记器创建我自己的标记语料库集？

语料库的语法是什么,我的语料库需要多长时间才能达到理想的性能？

Answer 1

要训练PoS标记器,请参阅此邮件列表文章,该文章也包含在MaxentTagger类的JavaDocs中.

训练文件应采用以下格式:每行一个单词和一个标记,用空格或制表符分隔.每个句子应以EOS字标签对结尾.(实际上,我不完全确定仍然如此,但它可能不会受到伤害.-wmorgan)

Answer 2

基本上,您为培训过程格式化的文本应该在每一行上都有一个标记,后跟一个标签,后跟一个标识符.标识符可以是类似"LOC"的位置,"COR"代表公司,或"0"代表非实体代币.例如

I     0
left     0
my     0
heart     0
in     0
Kansas     LOC
City     LOC
.     0

当我们的团队训练了一系列分类器时,我们为每个训练文件提供了大约180,000个令牌的格式,我们看到了精确度的净改善但是召回的净减少.(值得注意的是,精度的提高在统计上并不显着.)如果它对其他人有用,我描述了我们用来训练分类器的过程以及训练和默认值的p,r和f1值.这里有分类器.