我坚持用在不同的存储层次,但我发现对性能没有区别,我用的时候MEMORY_ONLY
和DISK_ONLY
.
我认为我的代码可能有问题...我在哪里可以找到磁盘上的持久RDD,以便我可以确保它们实际上是持久存在的?
根据文档:
spark.local.dir
(默认/tmp
)Spark 中用于“临时”空间的目录,包括地图输出文件和存储在磁盘上的 RDD。这应该在您系统中的快速本地磁盘上。它也可以是不同磁盘上多个目录的逗号分隔列表。注意:在 Spark 1.0 及更高版本中,这将被集群管理器设置的 SPARK_LOCAL_DIRS(独立、Mesos)或 LOCAL_DIRS (YARN) 环境变量覆盖。
归档时间: |
|
查看次数: |
6523 次 |
最近记录: |