试图将MEGAM用作NLTK ClassifierBasedPOSTagger?

win*_*aed 5 python nlp nltk pos-tagger

我目前正在尝试使用NLTK构建一个通用(或一般的实用)POS标记器.我已经涉足棕色和树库语料库进行训练,但可能会在树库语料库中定居.

随着我的学习,我发现分类器POS标签是最准确的.最大实体分类器意味着最准确,但我发现它使用了大量内存(和处理时间),我必须大大减少训练数据集,因此最终结果不如使用默认的朴素贝叶斯分类器.

有人建议我使用MEGAM.NLTK对MEGAM有一些支持,但我发现的所有例子都是针对一般分类器(例如,使用单词特征向量的文本分类器),而不是更具体的POS标记器.无需重新创建我自己的POS功能提取器和编译器(即我更喜欢使用已经在NLTK中的那个),我如何使用MEGAM MaxEnt分类器?IE浏览器.我怎么能把它放在一些现有的MaxEnt代码中:

maxent_tagger = ClassifierBasedPOSTagger(train=training_sentences,
                                        classifier_builder=MaxentClassifier.train )
Run Code Online (Sandbox Code Playgroud)

Jac*_*cob 8

这个衬垫应该用于训练MEGAM MaxentClassifier用于ClassifierBasedPOSTagger.当然,假设已经安装了MEGAM(去这里下载)

maxent_tagger = ClassifierBasedPOSTagger(train=train_sents, classifier_builder=lambda train_feats: MaxentClassifier.train(train_feats, algorithm='megam', max_iter=10, min_lldelta=0.1))
Run Code Online (Sandbox Code Playgroud)

  • 哈尔搬到马里兰州.下载的新链接是:http://www.umiacs.umd.edu/~hal/megam/ (5认同)
  • 另请查看https://github.com/japerk/nltk-trainer中的train_tagger.py.很快我会写一篇介绍文章,但希望帮助信息足以让你入门. (3认同)