gur*_*107 1 apache-spark apache-spark-dataset
它们都用于快速访问数据集。两者有什么区别?
createOrReplaceTempView
将 a 注册DataFrame
为可以使用 SQL 查询的表(绑定到SparkSession
注册它的生命周期- 因此Temp
是名称的一部分)。但是请注意,此方法不允许您实现任何性能改进。
cache
(或persist
) 标记DataFrame
要在以下操作后缓存,使其在后续操作中访问速度更快。DataFrame
s 与RDD
s一样,表示在底层(分布式)数据结构(所谓的谱系)上执行的计算序列。每当您执行转换(例如:通过 将函数应用于每条记录map
)时,您都会返回一个更新的谱系。每当您对DataFrame
,某种必须执行谱系的计算实际执行操作时,每次都会重新执行它,除非它已经被缓存并且因此可用。
这意味着使用cache
或persist
将帮助您优化需要DataFrame
多次访问内容的情况。
归档时间: |
|
查看次数: |
1416 次 |
最近记录: |