小编Mic*_*zer的帖子

TSQL模式(平均值,中位数,模式)

我正在尝试计算一个表中的一系列idsofInterest的模式,每个都带有一个伴随的valueOfInterest:

idsOfInterest | valueOfInterest  
2             | 1A  
2             | 1A  
2             | 3B  
1             | 2A  
1             | 2C  
1             | 2A  
4             | 3B  
4             | 3B  
4             | 4C

Run Code Online (Sandbox Code Playgroud)

但有数百万行.
每个idOfInterest列表都足够长,多模式不是问题.理想情况下,我想要像

idsOfInterest | modeValueOfInterest  
1             | 2A  
2             | 1A  
3             | 3C  
4             | 3B

Run Code Online (Sandbox Code Playgroud)

任何帮助赞赏.(使用MS SQL Server 2008)

sql t-sql sql-server-2008

Mic*_*zer

2014 05-08

12
推荐指数

1
解决办法

8539
查看次数

来自数据帧的Spark MLLib Kmeans,又回来了

我的目标是使用Spark(1.3.1)MLLib将kmeans聚类算法应用于非常大的数据集.我使用来自Spark的hiveContext从HDFS调用数据,并最终希望将其放回那里 - 以这种格式

    |I.D     |cluster |
    ===================
    |546     |2       |
    |6534    |4       |
    |236     |5       |
    |875     |2       |

Run Code Online (Sandbox Code Playgroud)

我运行了以下代码,其中"data"是双精度数据帧,第一列是ID.

    val parsedData = data.rdd.map(s => Vectors.dense(s.getDouble(1),s.getDouble(2))).cache()
    val clusters = KMeans.train(parsedData, 3, 20)

Run Code Online (Sandbox Code Playgroud)

这成功运行,我现在停留在如上所述的数据帧中将群集映射回各自的ID.我可以将其转换为数据帧:

    sc.makeRDD(clusters.predict(parsedData).toArray()).toDF()

Run Code Online (Sandbox Code Playgroud)

但就我而言,这就是我的意思.这篇文章是在正确的轨道上,我认为这篇文章提出了类似的问题.

我怀疑需要带标签的点库.任何评论,答案将不胜感激,欢呼.

编辑:刚刚在Spark用户列表中找到这个,看起来很有希望

k-means apache-spark

Mic*_*zer

2017 05-23

9
推荐指数

1
解决办法

7550
查看次数

标签统计

apache-spark ×1

k-means ×1

sql ×1

sql-server-2008 ×1

t-sql ×1

TSQL模式(平均值,中位数,模式)

来自数据帧的Spark MLLib Kmeans,又回来了

标签 统计

小编Mic_zer的帖子

标签统计