目前,当我使用paritionBy()写入 HDFS 时:
DF.write.partitionBy("id")
Run Code Online (Sandbox Code Playgroud)
我将得到如下输出结构(这是默认行为):
../id=1/
../id=2/
../id=3/
Run Code Online (Sandbox Code Playgroud)
我想要一个看起来像这样的结构:
../a/
../b/
../c/
Run Code Online (Sandbox Code Playgroud)
这样:
if id = 1, then a
if id = 2, then b
.. etc
Run Code Online (Sandbox Code Playgroud)
有没有办法改变文件名输出?如果没有,最好的方法是什么?
我有一个RDD的Array [Int],我想要RDD [Int]形式的每个数组中所有元素的总和.实现这一目标的最佳方法是什么?