通常我Dataset.count在 3 个场景中看到整个代码库:
log.info("this ds has ${dataset.count} rows")if (dataset.count > 0) do x else do ydataset.persist.count它是否会通过强制查询优化器在任何这些场景中过早地急切来阻止查询优化器创建最有效的 dag?
我试图找到一个很好的答案,为什么 RDD 的默认持久化是 MEMORY_ONLY 和数据集 MEMORY_AND_DISK。但是找不到。我想知道你们中是否有人知道背后的好理由?
谢谢
apache-spark ×2