有没有办法手动设置RDD分区的首选位置?我想确保某些分区是在特定计算机上计算的。
我正在使用一个数组和'Parallelize'方法从中创建一个RDD。
另外我不使用HDFS,文件在本地磁盘上。这就是为什么我要修改执行节点。
apache-spark rdd pyspark
apache-spark ×1
pyspark ×1
rdd ×1