我在工作中使用 pyspark。在这篇文章https://unraveldata.com/to-cache-or-not-to-cache/中,它说缓存不是一个动作。然而,当我在 RDD 上运行缓存函数时,需要花费很多时间。Spark UI 显示有一些名为 的激活作业cache at NativeMethodAccessorImpl.java:0
。那么缓存是一个动作吗?
缓存是一个惰性动作。这意味着当访问从缓存构造的变量时,它将对其进行计算。所以这表明这需要时间。
当对其进行计算时,所有数据都会移动到内存中。一旦 RAM 中的数据可用,就会执行计算。
归档时间: |
|
查看次数: |
2462 次 |
最近记录: |