小编Raj*_*wal的帖子

了解缓存,坚持使用Spark

任何人都可以纠正我对Spark坚持的理解.

如果我们在RDD上执行了cache(),则它的值仅缓存在最初计算RDD的那些节点上.含义,如果存在100个节点的集群,则在第一个和第二个节点的分区中计算RDD.如果我们缓存了这个RDD,那么Spark将仅在第一个或第二个工作节点中缓存它的值.因此,当此Spark应用程序尝试在后续阶段使用此RDD时,Spark驱动程序必须从第一个/第二个节点获取值.

我对么?

(要么)

是RDD值持久存储在驱动程序内存而不是节点上的东西吗?

apache-spark rdd apache-spark-sql

17
推荐指数
1
解决办法
8487
查看次数

标签 统计

apache-spark ×1

apache-spark-sql ×1

rdd ×1