小编Vis*_*aji的帖子

Spark.read.parquet 和 Spark.read.format.load 之间的速度差异

我试图了解是什么导致了阅读速度的巨大差异。我有一个包含 3000 万行和 38 列的数据框。

final_df=spark.read.parquet("/dbfs/FileStore/path/to/file.parquet")
Run Code Online (Sandbox Code Playgroud)

读取该文件需要 14 分钟。

尽管

final_df = spark.read.format("parquet").load("/dbfs/FileStore/path/to/file.parquet")
Run Code Online (Sandbox Code Playgroud)

读取文件仅需2秒。

apache-spark apache-spark-sql pyspark

5
推荐指数
1
解决办法
2605
查看次数

标签 统计

apache-spark ×1

apache-spark-sql ×1

pyspark ×1