访问 Spark Mllib 平分 K 均值树数据

Cha*_*kin 6 apache-spark apache-spark-mllib

查看 Bisecting K-means 的源代码,它似乎在它进行的每个级别构建了集群分配的内部树表示。是否有可能访问那棵树?内置方法只在叶子而不是节点上分配集群。

mfl*_*www 2

跟进:是否有人修改了 Spark ML 源代码以能够存储和返回分层聚类树结构?

我找到了一个 GitHub 存储库,其中介绍了 MLlib 1.6 对分 K 均值聚类的实现: https: //github.com/yu-iskw/bisecting-kmeans-blog/blob/master/blog-article.md

在“下一步是什么?”部分中,第一个 JIRA 票证 [SPARK-11664]“添加方法以获取平分 k-means 集群结构”(https://issues.apache.org/jira/browse/SPARK-11664)似乎是作为内置工作获取分层簇树结构的请求。截至今天,此票证状态标记为“已解决”。

然而,在 Spark MLlib 的最新实现(2.4.4)中,我们没有发现这种树结构或树状图是内置输出:

PySpark MLlib 2.4.4 官方文档: https://spark.apache.org/docs/latest/api/python/pyspark.mllib.html#pyspark.mllib.clustering.BisectingKMeans https://spark.apache.org/docs /latest/api/python/pyspark.mllib.html#pyspark.mllib.clustering.BisectingKMeansModel

Scala MLlib 2.4.4 官方文档: https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.mllib.clustering.BisectingKMeans https://spark.apache.org /docs/latest/api/scala/index.html#org.apache.spark.mllib.clustering.BisectingKMeansModel

我们还查看了他们的源代码,它似乎没有将层次树结构存储为内置输出?

如果 Spark MLlib 2.4.4 BisectingKMeans 中没有分层聚类树结构,有谁知道是否修改了源代码以获得可用的树结构?

谢谢!