小编Som*_*haa的帖子

Pyspark:spark sql 中的缓存方法

我需要了解使用 Spark sql 时以下两种缓存方法之间是否有任何区别,以及一种方法相对于另一种方法是否有任何性能优势(考虑到构建数据帧成本高昂,我想多次重用它/执行多次操作) )?

1> 缓存原始数据帧,然后将其注册为临时表

df.cache()

df.createOrReplaceTempView("dummy_table")

2> 将dataframe注册为临时表并缓存该表

df.createOrReplaceTempView("dummy_table")

sqlContext.cacheTable(“虚拟表”)

提前致谢。

apache-spark apache-spark-sql pyspark

5
推荐指数
1
解决办法
1726
查看次数

标签 统计

apache-spark ×1

apache-spark-sql ×1

pyspark ×1