我正在尝试计算一个表中的一系列idsofInterest的模式,每个都带有一个伴随的valueOfInterest:
idsOfInterest | valueOfInterest
2 | 1A
2 | 1A
2 | 3B
1 | 2A
1 | 2C
1 | 2A
4 | 3B
4 | 3B
4 | 4C
Run Code Online (Sandbox Code Playgroud)
但有数百万行.
每个idOfInterest列表都足够长,多模式不是问题.理想情况下,我想要像
idsOfInterest | modeValueOfInterest
1 | 2A
2 | 1A
3 | 3C
4 | 3B
Run Code Online (Sandbox Code Playgroud)
任何帮助赞赏.(使用MS SQL Server 2008)
我的目标是使用Spark(1.3.1)MLLib将kmeans聚类算法应用于非常大的数据集.我使用来自Spark的hiveContext从HDFS调用数据,并最终希望将其放回那里 - 以这种格式
|I.D |cluster |
===================
|546 |2 |
|6534 |4 |
|236 |5 |
|875 |2 |
Run Code Online (Sandbox Code Playgroud)
我运行了以下代码,其中"data"是双精度数据帧,第一列是ID.
val parsedData = data.rdd.map(s => Vectors.dense(s.getDouble(1),s.getDouble(2))).cache()
val clusters = KMeans.train(parsedData, 3, 20)
Run Code Online (Sandbox Code Playgroud)
这成功运行,我现在停留在如上所述的数据帧中将群集映射回各自的ID.我可以将其转换为数据帧:
sc.makeRDD(clusters.predict(parsedData).toArray()).toDF()
Run Code Online (Sandbox Code Playgroud)
但就我而言,这就是我的意思.这篇文章是在正确的轨道上,我认为这篇文章提出了类似的问题.
我怀疑需要带标签的点库.任何评论,答案将不胜感激,欢呼.
编辑:刚刚在Spark用户列表中找到这个,看起来很有希望