我是apache spark和scala的新手.我有这样的数据集,我从csv文件中取出并使用scala将其转换为RDD.
+-----------+-----------+----------+
| recent | Freq | Monitor |
+-----------+-----------+----------+
| 1 | 1234 | 199090|
| 4 | 2553| 198613|
| 6 | 3232 | 199090|
| 1 | 8823 | 498831|
| 7 | 2902 | 890000|
| 8 | 7991 | 081097|
| 9 | 7391 | 432370|
| 12 | 6138 | 864981|
| 7 | 6812 | 749821|
+-----------+-----------+----------+
Run Code Online (Sandbox Code Playgroud)
我想计算z得分值或标准化数据.所以我正在计算每列的z得分,然后尝试将它们组合起来,以便得到标准比例.
这是我计算第一列z分数的代码
val scores1 = sorted.map(_.split(",")(0)).cache
val count = scores.count
val mean = scores.sum / …Run Code Online (Sandbox Code Playgroud) 我有这样的数据集,我将从csv文件中获取数据,并使用scala将其转换为RDD。
+-----------+-----------+----------+
| recent | Freq | Monitor |
+-----------+-----------+----------+
| 1 | 1234 | 199090|
| 4 | 2553| 198613|
| 6 | 3232 | 199090|
| 1 | 8823 | 498831|
| 7 | 2902 | 890000|
| 8 | 7991 | 081097|
| 9 | 7391 | 432370|
| 12 | 6138 | 864981|
| 7 | 6812 | 749821|
+-----------+-----------+----------+
Run Code Online (Sandbox Code Playgroud)
如何对所有列上的数据进行排序?
谢谢