任何人都可以指向一个可以聚类约100万个对象的层次聚类工具(最好是在python中)吗?我试过hcluster,还有橘子.
hcluster18k物体有问题.Orange能够在几秒钟内聚集18k个对象,但失败了100k对象(饱和内存并最终崩溃).
我在Ubuntu 11.10上运行64位Xeon CPU(2.53GHz)和8GB RAM + 3GB交换.
python cluster-analysis machine-learning hierarchical-clustering data-mining
我正在尝试寻找一个minhash开源实现,我可以利用它来完成我的工作.
我需要的功能非常简单,给定一个输入,实现应返回其minhash.
python或C实现将是首选,以防万一我需要破解它为我工作.
任何指针都会有很大的帮助.
问候.
需要帮助找到基于开放/自由密度的聚类库,该库将距离矩阵作为输入并返回聚类,其中每个元素与聚类中的每个其他元素之间的最大"x"距离(基本上返回具有指定密度的聚类) .
我检查了DBSCAN算法,它似乎符合我的需要.DBSCAN的任何干净实现,你可能没有关闭,可以使用预先计算的距离矩阵和具有所需密度的输出集群起飞?
您的输入将非常有用.