相关疑难解决方法(0)

是否有任何性能问题迫使在 spark 中使用计数进行急切评估?

通常我Dataset.count在 3 个场景中看到整个代码库:

  1. 日志记录 log.info("this ds has ${dataset.count} rows")
  2. 分枝 if (dataset.count > 0) do x else do y
  3. 强制缓存 dataset.persist.count

它是否会通过强制查询优化器在任何这些场景中过早地急切来阻止查询优化器创建最有效的 dag?

apache-spark

4
推荐指数
1
解决办法
1092
查看次数

Rdd 和 Dataset 的不同默认值持久化

我试图找到一个很好的答案,为什么 RDD 的默认持久化是 MEMORY_ONLY 和数据集 MEMORY_AND_DISK。但是找不到。我想知道你们中是否有人知道背后的好理由?

谢谢

apache-spark

2
推荐指数
1
解决办法
1166
查看次数

标签 统计

apache-spark ×2