OiR*_*iRc 4 scala apache-spark rdd
我有一个文件,每一行都是这样的
info1,info2
info3,info4
...
Run Code Online (Sandbox Code Playgroud)
扫描完之后,我想运行k-means算法:
val rawData = sc.textFile(myFile)
val converted = convertToVector(rawData)
val kmeans = new KMeans()
kmeans.setK(10)
kmeans.setRuns(10)
kmeans.setEpsilon(1.0e-6)
val model = kmeans.run(rawData) -> problem: k-means accepts only RDD<Vector>
Run Code Online (Sandbox Code Playgroud)
因为k-means只接受RDD<Vector>,所以我创建了一个将我转换RDD<String> rawData为a 的函数RDD<Vector>.但我不知道如何做到这一点,下面这个功能正在进行中:
def converToVector(rawData: RDD[String]): RDD[Vector] = {
//TODO...
val toConvert = rawData.collect().toVector
val map = rawData.map {
line => line.split(",").toVector
}
map
}
Run Code Online (Sandbox Code Playgroud)
有关如何实现这一目标的任何建议?
提前致谢.
考虑到输入文件的每一行都是一个用逗号分隔的字符串表示的假设向量,这是一个非常基本的操作.
您只需映射每个字符串entrie,将其拆分在分隔符上,然后从中创建一个密集的Vector:
val parsedData = rawData.map(s => Vectors.dense(s.split(',').map(_.toDouble)))
Run Code Online (Sandbox Code Playgroud)