ste*_*ino 6

createOrReplaceTempView将 a 注册DataFrame为可以使用 SQL 查询的表(绑定到SparkSession注册它的生命周期- 因此Temp是名称的一部分)。但是请注意,此方法不允许您实现任何性能改进。


cache(或persist) 标记DataFrame要在以下操作后缓存,使其在后续操作中访问速度更快。DataFrames 与RDDs一样,表示在底层(分布式)数据结构(所谓的谱系)上执行的计算序列。每当您执行转换(例如:通过 将函数应用于每条记录map)时,您都会返回一个更新的谱系。每当您对DataFrame,某种必须执行谱系的计算实际执行操作时,每次都会重新执行它,除非它已经被缓存并且因此可用。

这意味着使用cachepersist将帮助您优化需要DataFrame多次访问内容的情况。