Fold,Reduce,Aggregate的Spark Async接口?

cla*_*lay 8 asynchronous future apache-spark

在官方的Spark RDD API中:

https://spark.apache.org/docs/2.1.0/api/java/org/apache/spark/rdd/AsyncRDDActions.html

count,collect,foreach和take all都有异步变体返回Future.

为什么折叠,缩小和聚合没有这个异步/未来接口?这看起来非常重要.

com*_*ist 0

!!!已编辑

@Jan Van den bosch 是对的(见下面的评论)。这个问题根本不是关于转换的。为了防止其他人被愚弄,我在下面留下了我的错误答案。

!!!原答案(错误)

TL;DR: spark“操作”与“转换”之间的区别:https://spark.apache.org/docs/2.2.0/rdd-programming-guide.html#rdd-operations


请注意,您使用异步选项列出的所有内容都是 Spark “actions”,这意味着它们将立即开始处理数据并尝试同步返回。如果数据很多,可能需要很长时间,所以最好有一个异步选项。

同时,您列出的没有异步选项的操作是延迟评估的火花“转换”,这意味着它会立即创建一个完成工作的计划,但它实际上不会处理任何数据,直到您稍后应用“操作”返回结果。

同时,您是否有特定的代码或您想要解决的问题?