小编sam*_*m93的帖子

如何控制RDD分区的首选位置?

有没有办法手动设置RDD分区的首选位置?我想确保某些分区是在特定计算机上计算的。

我正在使用一个数组和'Parallelize'方法从中创建一个RDD。

另外我不使用HDFS,文件在本地磁盘上。这就是为什么我要修改执行节点。

apache-spark rdd pyspark

5
推荐指数
1
解决办法
1046
查看次数

标签 统计

apache-spark ×1

pyspark ×1

rdd ×1