相关疑难解决方法(0)

如何在Spark中打印特定RDD分区的元素?

如何单独打印特定分区的元素,比如说第5个?

val distData = sc.parallelize(1 to 50, 10)
Run Code Online (Sandbox Code Playgroud)

scala apache-spark rdd

9
推荐指数
1
解决办法
1万
查看次数

参加 rdd 并保持 rdd

我找不到只参与rdd. take看起来很有希望,但它返回一个list而不是rdd. 我当然可以将其转换为rdd,但这似乎既浪费又丑陋。

 my_rdd = sc.textFile("my_file.csv")
 part_of_my_rdd = sc.parallelize(my_rdd.take(10000))
Run Code Online (Sandbox Code Playgroud)

我有更好的方法来做到这一点吗?

apache-spark pyspark

5
推荐指数
1
解决办法
2927
查看次数

标签 统计

apache-spark ×2

pyspark ×1

rdd ×1

scala ×1