Java开源文本挖掘框架

Dav*_*pos 12 java frameworks nlp information-retrieval machine-learning

我想知道什么是最好的基于Java的开源文本挖掘框架,使用botg机器学习和字典方法.

我正在使用Mallet,但没有那么多文档,我不知道它是否符合我的所有要求.

Dav*_*pos 6

老实说,我认为这里提出的几个答案非常好.但是,为了满足我的要求,我选择使用Apache UIMAClearTK.它支持几种ML方法,我没有任何许可证问题.另外,我可以为其他ML方法制作包装器,并且我利用了UIMA框架,它非常有条理且快速.

谢谢大家的有趣答案.

最诚挚的问候,乌克兰


Amr*_*mro 4

虽然不是专门的文本挖掘框架,但Weka拥有许多通常用于文本挖掘任务的分类器,例如:SVM、kNN、多项式 NaiveBayes 等。

它还具有一些可处理文本数据的过滤器,例如StringToWordVector可以执行 TF/IDF 转换的过滤器。

查看Weka wiki网站了解更多信息。