小编Bar*_*Bar的帖子

Pyspark 性能:dataframe.collect() 非常慢

当我尝试在数据帧上进行收集时,似乎花费了太长时间。

我想从数据框中收集数据,将其转换为字典并将其插入到 documentdb 中。但是执行day_rows.collect()时性能似乎很慢

day_rows = self._sc.sql("select * from table")

rows_collect = []

if day_rows.count():
    rows_collect = day_rows.collect()

results = map(lambda row: row.asDict(), rows_collect) 
Run Code Online (Sandbox Code Playgroud)

为什么性能慢?

apache-spark apache-spark-sql pyspark

6
推荐指数
1
解决办法
1万
查看次数

标签 统计

apache-spark ×1

apache-spark-sql ×1

pyspark ×1