小编Nir*_*anp的帖子

如何使用scala规范化或标准化spark中具有多列/变量的数据？

我是apache spark和scala的新手.我有这样的数据集,我从csv文件中取出并使用scala将其转换为RDD.

+-----------+-----------+----------+
| recent    | Freq      | Monitor  |
+-----------+-----------+----------+
|        1  |       1234 |   199090|
|        4  |       2553|    198613|
|        6  |       3232 |   199090|
|        1  |       8823 |   498831|
|        7  |       2902 |   890000|
|        8  |       7991 |   081097|
|        9  |       7391 |   432370|
|        12 |       6138 |   864981|
|        7  |       6812 |   749821|
+-----------+-----------+----------+

Run Code Online (Sandbox Code Playgroud)

我想计算z得分值或标准化数据.所以我正在计算每列的z得分,然后尝试将它们组合起来,以便得到标准比例.

这是我计算第一列z分数的代码

val scores1 = sorted.map(_.split(",")(0)).cache
val count = scores.count
val mean = scores.sum / …

Run Code Online (Sandbox Code Playgroud)

statistics scala apache-spark

Nir*_*anp

lucky-day

4
推荐指数

1
解决办法

8764
查看次数

如何对Apache Spark Scala中多列上的数据进行排序？

我有这样的数据集，我将从csv文件中获取数据，并使用scala将其转换为RDD。

+-----------+-----------+----------+
| recent    | Freq      | Monitor  |
+-----------+-----------+----------+
|        1  |       1234 |   199090|
|        4  |       2553|    198613|
|        6  |       3232 |   199090|
|        1  |       8823 |   498831|
|        7  |       2902 |   890000|
|        8  |       7991 |   081097|
|        9  |       7391 |   432370|
|        12 |       6138 |   864981|
|        7  |       6812 |   749821|
+-----------+-----------+----------+

Run Code Online (Sandbox Code Playgroud)

如何对所有列上的数据进行排序？

谢谢

scala apache-spark

Nir*_*anp

2016 04-19

0
推荐指数

1
解决办法

8390
查看次数