我坚持用在不同的存储层次,但我发现对性能没有区别,我用的时候MEMORY_ONLY和DISK_ONLY.
我认为我的代码可能有问题...我在哪里可以找到磁盘上的持久RDD,以便我可以确保它们实际上是持久存在的?
根据文档:
spark.local.dir(默认/tmp)Spark 中用于“临时”空间的目录,包括地图输出文件和存储在磁盘上的 RDD。这应该在您系统中的快速本地磁盘上。它也可以是不同磁盘上多个目录的逗号分隔列表。注意:在 Spark 1.0 及更高版本中,这将被集群管理器设置的 SPARK_LOCAL_DIRS(独立、Mesos)或 LOCAL_DIRS (YARN) 环境变量覆盖。
| 归档时间: |
|
| 查看次数: |
6523 次 |
| 最近记录: |