当存储级别设置为磁盘时,Spark会将数据存储在何处？

Question

当存储级别设置为磁盘时,Spark会将数据存储在何处？

Met*_*est 5 hadoop scala bigdata hadoop-yarn apache-spark

我想知道当存储级别设置为DISK_ONLY或MEMORY_AND_DISK时,Spark存储数据的目录(在这种情况下,数据不适合内存).因为我看到我设置的级别没有区别.如果程序崩溃MEMORY_ONLY级别,它也会崩溃所有其他级别.

在我正在使用的集群中,/ tmp目录是一个RAM磁盘,因此大小有限.Spark是否试图将磁盘级数据存储到该驱动器？也许,这就是为什么我没有看到差异.如果确实如此,我该如何更改此默认行为？如果我正在使用Hadoop附带的纱线群集,我是否需要更改hadoop配置文件中的/ tmp文件夹,或者仅使用Spark更改spark.local.dir？

Answer 1

Non*_*one 3

是的，Spark 正在将磁盘级数据存储到该驱动器。

在yarn-cluster模式下，Spark执行器和Spark驱动程序使用的本地目录将是为YARN配置的本地目录（Hadoop YARN配置yarn.nodemanager.local-dirs）。如果用户指定spark.local.dir，它将被忽略。

参考：https://spark.apache.org/docs/latest/running-on-yarn.html#important-notes

因此，要更改spark本地目录，请更改yarn配置中的yarn.nodemanager.local-dirs

归档时间：	10 年，5 月前
查看次数：	2246 次
最近记录：	10 年，5 月前