用于大数据集的最大熵分类器

atl*_*tis 3 nlp classification machine-learning

我一直在寻找一种最大熵分类实现,它可以处理500个类和1000个特征的输出大小.我的训练数据大约有30,000,000行.我尝试过使用MegaM,64位R maxent软件包,这是爱丁堡大学的最大工具,但正如预期的那样,它们都无法处理数据的大小.但是,对于这种性质的nlp任务而言,数据集的大小似乎并不太过分.我应该采用哪些技术?或者我可以使用的工具包的任何建议?我试图在具有8GB RAM的64位Windows机器上运行它,在需要时使用Cygwin.

Fre*_*Foo 10

Vowpal Wabbit目前被认为是最快的大型学习者.LibLinear是另一种选择,但我不确定它是否可以处理3e10元素的矩阵.

请注意,术语"MaxEnt"几乎全部由NLP人员使用; 机器学习人员将其称为逻辑回归或logit,因此如果您搜索它,您可能会发现比搜索MaxEnt时更多的工具.

  • +1表示MaxEnt只是逻辑回归. (2认同)
  • @atlantis:根据[这个答案](http://stats.stackexchange.com/a/26211/8517)它可以,但功能没有详细记录.然而,它的[wiki](https://github.com/JohnLangford/vowpal_wabbit/wiki/Input-format)指出标签应该是1或-1用于后勤损失,所以你可能必须做一对一所有训练. (2认同)