Spark 2.0+即使数据帧已缓存，如果其源之一发生更改，它也会重新计算？

ali*_*uya 5 caching scala dataframe apache-spark

这是我的用例。

有多个来源df1至df4，df3代表现有的配置单元表
从df1到df4建立一个df5
将df5插入/附加到现有的配置单元表中。
将df5保存到其他位置。

问题在于第4步不会节省任何费用。这是否意味着在第3步之后，df3会发生变化？我已经对df1至df5使用cache（）了。但是，如果我检查了Spark Web UI存储，如果源已更改，则df5似乎将重新计算。所有数据帧都是100％缓存的。

归档时间：	7 年，2 月前
查看次数：	97 次
最近记录：	7 年，2 月前

在Scala中解析JSON最直接的方法是什么？ 18

python pandas条件累积和 9

在保持身份验证信息的同时积极缓存生成的内容 7

了解DelayedInit 7

如何识别一个pandas列是一个列表 7

为什么将数据帧中的转换逻辑应用于5个字符的字符串？ 5

MapReduce程序中的shuffle步骤是否与Mapping并行运行？ 5

如何在从 Kafka 读取消息时为 Spark Structured Streaming 设置最佳配置值 - 触发时间、maxOffsetsPerTrigger？ 5

将数据帧中的NaN转换为零 4

来自Spark Streaming的RestAPI服务调用 3

为什么我不应该在PHP中使用mysql_*函数？ 2432

配置错误:此配置部分不能在此路径中使用 1694

什么是尾递归？ 1602

"无法找到或加载主类"是什么意思？ 1277

如何删除重复的行？ 1254

检查Bash shell脚本中是否存在输入参数 1223

如何从Git的暂存区域中删除单个文件,但不将其从索引中删除或撤消对文件本身的更改？ 1177

无法绑定到'ngModel',因为它不是'input'的已知属性 1173

如何删除旧的Docker容器 1162

用于Python的IDE是什么？ 1028