小编sus*_*047的帖子

Spark Databricks 缓存的分数在执行操作后下降（Scala）

我使用 persist 命令在 MEMORY_AND_DISK 上缓存数据帧，并且一直在观察一个奇怪的模式。

当执行必要转换的特定作业（作业 6，在下面的屏幕截图中）完成时，持久数据帧会缓存到 100%，但在作业 9（数据质量检查）后，它会将缓存的分数降低到 55%，从而使其达到重新计算以获得部分丢失的数据（可以在作业12中看到）。我还从指标（Databricks 上的 Ganglia UI）中看到，在任何给定实例中至少有 50 GB 的可用内存。

（下图部分被遮蔽，以避免敏感数据暴露）