使用自定义语料库训练NLTK中的NER模型

Question

使用自定义语料库训练NLTK中的NER模型

aro*_*rop 7 python nlp named-entity-recognition nltk

我在conll2002格式中有一个带注释的语料库,即一个制表符分隔文件,带有一个标记,pos-tag和IOB标记,后跟实体标记.例:

John NNP B-PERSON

我想在NLTK中训练一个葡萄牙语 NER模型,最好是MaxEnt模型.我不希望使用NLTK的"内置"斯坦福大学NER,因为我已经能够使用独立的斯坦福NER.我想使用MaxEnt模型作为斯坦福NER的比较.

我找到了NLTK培训师,但我无法使用它.

我怎样才能做到这一点？

Answer 1

ale*_*xis 5

nltk 书的第 6 章和第 7 章解释了如何在 IOB 编码的语料库上训练“chunker”。第 7 章中的示例进行 NP 分块，但这是偶然的——您的分块器将分块您训练的任何内容。您需要决定哪些特征对命名实体识别有用；第 6 章介绍了为分类器选择特征的基础知识。最后，查看 nltk 自己的命名实体 chunker使用的功能的来源。他们的葡萄牙语也可能做得很好；那么您可以尝试添加词干提取或其他葡萄牙语特定的功能。

归档时间：	8 年，8 月前
查看次数：	2362 次
最近记录：	8 年，2 月前