小编hli*_*hli的帖子

Spark:PartitionBy,更改输出文件名

目前,当我使用paritionBy()写入 HDFS 时:

DF.write.partitionBy("id")
Run Code Online (Sandbox Code Playgroud)

我将得到如下输出结构(这是默认行为):

../id=1/

../id=2/

../id=3/
Run Code Online (Sandbox Code Playgroud)

我想要一个看起来像这样的结构:

../a/

../b/

../c/
Run Code Online (Sandbox Code Playgroud)

这样:

if id = 1, then a
if id = 2, then b

.. etc
Run Code Online (Sandbox Code Playgroud)

有没有办法改变文件名输出?如果没有,最好的方法是什么?

hdfs apache-spark apache-spark-sql pyspark

5
推荐指数
1
解决办法
4001
查看次数

将RDD [Array [Int]]求和到RDD [Int]

我有一个RDD的Array [Int],我想要RDD [Int]形式的每个数组中所有元素的总和.实现这一目标的最佳方法是什么?

arrays scala apache-spark rdd

-5
推荐指数
1
解决办法
393
查看次数

标签 统计

apache-spark ×2

apache-spark-sql ×1

arrays ×1

hdfs ×1

pyspark ×1

rdd ×1

scala ×1