哪个是最好的文档集群开源包?

Lon*_*guy 6 nlp cluster-analysis machine-learning

哪个开源软件包最适合聚类大型文档?它应该自己决定簇的数量,或者也可以接受它作为参数.

我们有大量的文档并不真正围绕特定主题 - 它们是销售和管理人员在组织中的各种项目和客户端生成的文档.我知道拥有这样一个扩散语料库会降低性能,但我们正试图以最好的方式生活.现在,我们能得到的最好的是:-)

cyb*_*org 4

该领域专家主页上的主题建模软件列表: http://www.cs.princeton.edu/~blei/topicmodeling.html

竞争性领导小组(具有开源代码):http://nlp.stanford.edu/software/tmt/tmt-0.3/

另一个开源java项目: http: //mallet.cs.umass.edu/topics.php