小编mra*_*mah的帖子

我在 s3 中有一个文件夹（path = mnt/data/*.json），其中包含数百万个 json 文件（每个文件小于 10 KB）。我运行以下代码：

df = (spark.read
           .option("multiline", True)
           .option("inferSchema", False)
           .json(path))
display(df)

问题是它非常慢。Spark 通过一个任务为此创建一个作业。该任务似乎没有更多执行程序在运行，这通常意味着作业已完成（对吗？），但由于某种原因，DataBricks 中的命令单元仍在运行。就这样卡了10分钟了。我觉得这么简单的事情应该不会超过5分钟。

需要考虑的注意事项：

6
推荐指数

1
解决办法

7870
查看次数

小编mra_mah的帖子