我有一个 spark 应用程序,我需要在其中将数据从执行程序获取到驱动程序,并且我正在使用collect(). 不过,我也遇到过toLocalIterator()。就我toLocalIterator()在 Internet 上读到的内容而言,它返回一个迭代器而不是立即发送整个 RDD,因此它具有更好的内存性能,但是速度呢?执行/计算时间之间collect()和之间的性能如何toLocalIterator()?
collect()
toLocalIterator()
apache-spark
apache-spark ×1