MFA*_*RID 6 java classification machine-learning categorization document-classification
有谁知道好的开源文本分类模型?我知道斯坦福分类器,Weka,Mallet等,但所有这些都需要培训.
我需要将新闻文章分类为体育/政治/健康/游戏/等.那里有训练有素的模特吗?
Alchemy,OpenCalais等不是选项.我需要开源工具(最好是Java).
拥有预先训练的模型假定用于训练的语料库来自与您尝试分类的文档完全相同的域.通常,这不会给你想要的结果,因为你没有原始语料库.机器学习不是静态的,当您训练分类器时,您需要在新功能/信息可用时更新模型.
例如,在体育/政治/健康/游戏/等领域中对您想要的新闻文章进行分类.
先用什么语言?我们只谈论英语吗?原始语料库是如何标记的?最大的未知数是等类别.
训练你自己的分类器真的很容易.如果您正在分类文本,MALLET是最佳选择.您可以在不到10分钟的时间内启动并运行.您可以在1小时内将MALLET添加到您自己的应用程序中.
如果您想对新闻文章进行分类,可以使用许多开源语料库作为开始培训的基础.我会从Reuters-21578或RCV-1开始.