小编Kam*_*zny的帖子

SparkR DataFrame 分区问题

在我的 R 脚本中，我有一个SparkDataFrame包含四个不同月份数据的两列（时间、值）。由于我需要将我的函数分别应用到每个月，我想我会将repartition它分成四个分区，每个分区将保存一个月的数据。

我创建了一个名为 partition 的附加列，具有一个整数值 0 - 3，然后repartition通过此特定列调用该方法。

可悲的是，正如本主题中所描述的那样： Spark SQL - df.repartition 和 DataFrameWriter partitionBy 之间的区别？，使用该repartition方法我们只确定所有具有相同键的数据最终会在同一个分区中，但是具有不同键的数据也可以最终在同一个分区中。

就我而言，执行下面可见的代码会创建 4 个分区，但只用数据填充其中的 2 个。

我想我应该使用该partitionBy方法，但是在 SparkR 的情况下，我不知道该怎么做。官方文档指出，此方法适用于称为WindowSpec而不是DataFrame.

我真的很感激这方面的一些帮助，因为我不知道如何将此方法合并到我的代码中。

sparkR.session(
   master="local[*]",  sparkConfig = list(spark.sql.shuffle.partitions="4"))
df <- as.DataFrame(inputDat) # this is a dataframe with added partition column
repartitionedDf <- repartition(df, col = df$partition)

schema <- structType(
  structField("time", "timestamp"), 
  structField("value", "double"), 
  structField("partition", "string"))

processedDf <- dapply(repartitionedDf, 
  function(x) { data.frame(produceHourlyResults(x), …

Run Code Online (Sandbox Code Playgroud)

r apache-spark sparkr

Kam*_*zny

2018 01-26

6
推荐指数

1
解决办法

773
查看次数

标签统计

apache-spark ×1

r ×1

sparkr ×1

SparkR DataFrame 分区问题

标签 统计

小编Kam_zny的帖子

标签统计