小编Ati*_*pal的帖子

100万个对象的分层聚类

任何人都可以指向一个可以聚类约100万个对象的层次聚类工具(最好是在python中)吗?我试过hcluster,还有橘子.

hcluster18k物体有问题.Orange能够在几秒钟内聚集18k个对象,但失败了100k对象(饱和内存并最终崩溃).

我在Ubuntu 11.10上运行64位Xeon CPU(2.53GHz)和8GB RAM + 3GB交换.

python cluster-analysis machine-learning hierarchical-clustering data-mining

20
推荐指数
2
解决办法
2万
查看次数

你能建议一个好的minhash实现吗?

我正在尝试寻找一个minhash开源实现,我可以利用它来完成我的工作.

我需要的功能非常简单,给定一个输入,实现应返回其minhash.

python或C实现将是首选,以防万一我需要破解它为我工作.

任何指针都会有很大的帮助.

问候.

python hash minhash

16
推荐指数
3
解决办法
1万
查看次数

基于密度的聚类库,以距离矩阵为输入

需要帮助找到基于开放/自由密度的聚类库,该库将距离矩阵作为输入并返回聚类,其中每个元素与聚类中的每个其他元素之间的最大"x"距离(基本上返回具有指定密度的聚类) .

我检查了DBSCAN算法,它似乎符合我的需要.DBSCAN的任何干净实现,你可能没有关闭,可以使用预先计算的距离矩阵和具有所需密度的输出集群起飞?

您的输入将非常有用.

cluster-analysis distance matrix dbscan

5
推荐指数
1
解决办法
1394
查看次数