aro*_*rop 7 python nlp named-entity-recognition nltk
我在conll2002格式中有一个带注释的语料库,即一个制表符分隔文件,带有一个标记,pos-tag和IOB标记,后跟实体标记.例:
John NNP B-PERSON
我想在NLTK中训练一个葡萄牙语 NER模型,最好是MaxEnt模型.我不希望使用NLTK的"内置"斯坦福大学NER,因为我已经能够使用独立的斯坦福NER.我想使用MaxEnt模型作为斯坦福NER的比较.
我找到了NLTK培训师,但我无法使用它.
我怎样才能做到这一点?
nltk 书的第 6 章和第 7 章解释了如何在 IOB 编码的语料库上训练“chunker”。第 7 章中的示例进行 NP 分块,但这是偶然的——您的分块器将分块您训练的任何内容。您需要决定哪些特征对命名实体识别有用;第 6 章介绍了为分类器选择特征的基础知识。最后,查看 nltk 自己的命名实体 chunker使用的功能的来源。他们的葡萄牙语也可能做得很好;那么您可以尝试添加词干提取或其他葡萄牙语特定的功能。
归档时间: |
|
查看次数: |
2362 次 |
最近记录: |