atl*_*tis 3 nlp classification machine-learning
我一直在寻找一种最大熵分类实现,它可以处理500个类和1000个特征的输出大小.我的训练数据大约有30,000,000行.我尝试过使用MegaM,64位R maxent软件包,这是爱丁堡大学的最大工具,但正如预期的那样,它们都无法处理数据的大小.但是,对于这种性质的nlp任务而言,数据集的大小似乎并不太过分.我应该采用哪些技术?或者我可以使用的工具包的任何建议?我试图在具有8GB RAM的64位Windows机器上运行它,在需要时使用Cygwin.
Fre*_*Foo 10
Vowpal Wabbit目前被认为是最快的大型学习者.LibLinear是另一种选择,但我不确定它是否可以处理3e10元素的矩阵.
请注意,术语"MaxEnt"几乎全部由NLP人员使用; 机器学习人员将其称为逻辑回归或logit,因此如果您搜索它,您可能会发现比搜索MaxEnt时更多的工具.