Tai*_*oye 5 k-means apache-spark apache-spark-mllib
我已经根据我的数据特征生成了我的聚类中心,比如你在中找到的“Kmeans.data.txt”
https://github.com/apache/spark/blob/master/data/mllib/kmeans_data.txt
这是在 Spark MLib 中使用 KMeans 执行的。
clusters.clusterCenters.foreach(println)
Run Code Online (Sandbox Code Playgroud)
知道如何预测从这些数据中得出的集群吗?
从Scala Spark检索到的 KMean MLlib 聚类代码片段的摘录
import org.apache.spark.mllib.clustering.KMeans
import org.apache.spark.mllib.linalg.Vectors
// Load and parse the data
val data = sc.textFile("data/mllib/kmeans_data.txt")
val parsedData = data.map(s => Vectors.dense(s.split(' ').map(_.toDouble)))
// Cluster the data into two classes using KMeans
val numClusters = 2
val numIterations = 20
val clusters = KMeans.train(parsedData, numClusters, numIterations)
// here is what I added to predict data points that are within the clusters
clusters.predict(parsedData).foreach(println)
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
6948 次 |
| 最近记录: |