Spark实际上将RDD保存在磁盘上的哪个位置?

Hao*_*ang 7 apache-spark

我坚持用在不同的存储层次,但我发现对性能没有区别,我用的时候MEMORY_ONLYDISK_ONLY.

我认为我的代码可能有问题...我在哪里可以找到磁盘上的持久RDD,以便我可以确保它们实际上是持久存在的?

hui*_*ker 5

根据文档:

spark.local.dir(默认/tmp

Spark 中用于“临时”空间的目录,包括地图输出文件和存储在磁盘上的 RDD。这应该在您系统中的快速本地磁盘上。它也可以是不同磁盘上多个目录的逗号分隔列表。注意:在 Spark 1.0 及更高版本中,这将被集群管理器设置的 SPARK_LOCAL_DIRS(独立、Mesos)或 LOCAL_DIRS (YARN) 环境变量覆盖。