任何人都可以纠正我对Spark坚持的理解.
如果我们在RDD上执行了cache(),则它的值仅缓存在最初计算RDD的那些节点上.含义,如果存在100个节点的集群,则在第一个和第二个节点的分区中计算RDD.如果我们缓存了这个RDD,那么Spark将仅在第一个或第二个工作节点中缓存它的值.因此,当此Spark应用程序尝试在后续阶段使用此RDD时,Spark驱动程序必须从第一个/第二个节点获取值.
我对么?
(要么)
是RDD值持久存储在驱动程序内存而不是节点上的东西吗?
apache-spark rdd apache-spark-sql
apache-spark ×1
apache-spark-sql ×1
rdd ×1