假设我有两个大小为 M1 和 M2 的 RDD,它们平均分布在 p 个分区中。
我很想知道(理论上/大约)操作过滤器、映射、leftOuterJoin、++、reduceByKey 等的成本是多少。
谢谢您的帮助。
performance processing-efficiency memory-efficient apache-spark rdd
apache-spark ×1
memory-efficient ×1
performance ×1
processing-efficiency ×1
rdd ×1