用于产品数据分析的最佳Python集群库

Question

用于产品数据分析的最佳Python集群库

我有各种产品的字母数字产品代码集合.类似的产品在其代码中没有内在的相似性,即产品代码"A123"可能意味着"Harry Potter Volume 1 DVD"和"B123"可能意味着"Kellogs Corn Flakes".我实际上也没有产品的描述或标识.我所拥有的只是此代码的"所有者".因此,我的数据(以非正常方式)看起来像这样:

Owner1:ProductCodes A123,B124,W555,M221,M556,127,102

所有者2:ProductCode D103,Z552,K112,L3254,223,112

Owner3:ProductCode G123

....

我有大量(即Terabytes)这组数据.

我假设一个拥有者 - 对于大多数人 - 拥有不确定数量的类似产品组 - 即一个拥有者可能只有两组 - 所有的哈利波特的DVD和书籍,还有一个"铁娘子"CD的集合.我想分析这些数据并确定产品代码之间的距离函数,这样我就可以开始假设产品代码彼此之间的"接近程度",并对产品代码进行聚类(因此我也可以确定所有者拥有的组数).我已经开始对文本聚类算法进行一些研究,但有很多可供选择,我不确定哪种方法最适合这种情况.

有人能指出我最合适的基于python的集群功能/库吗？

Answer 1

mic*_*ans 8

你所拥有的是一个二分图.作为初始刺,听起来你将邻居列表视为零一向量,在这两个向量之间定义某种相似性/相关性.例如,这可以是标准化的汉明距离.根据您的方式,您将获得单个域的图表 - 产品代码或所有者.很快就会清楚为什么我用图形语言来演绎所有内容,请耐心等待.现在为什么你坚持Python实现？聚类大规模数据耗费时间和内存.为了将猫拉出袋子,我已经编写并仍然保持了图形聚类算法,在生物信息学中使用得相当广泛.是有线程的,接受加权图,并已用于具有数百万个节点和十亿边的图.参考http://micans.org/mcl/了解更多信息.当然,如果你拖网stackoverflow和stackexchange,你可能会感兴趣的是很多线程.我也会推荐Louvain方法,除了我不确定它是否接受加权网络,你可能会产生.

归档时间：	15 年前
查看次数：	12063 次
最近记录：	8 年，2 月前