使用spark和scala将文件写入S3非常慢.有什么更好的方法来优化它？

Question

df.write.option("header", "false").
          option("quote", null).
          option("delimiter", Delimiter).
          csv(tempPath)

当我保存2 KB文件时,保存到S3只需不到5秒,但是当我尝试保存大约20GB的大文件时,需要1个多小时.

有什么建议可以加快写作过程吗？

我使用"s3a //"进行保存.

更新:当我操作大小为5 KB的数据并生成20KB文件以存储到S3时,需要8秒.当我尝试操作大小为250MB的数据并生成20KB文件存储到S3时需要45分钟.我在保存前进行计数,因此在保存之前由spark评估.

当我使用"aws S3 cp"命令将相同的20KBB文件复制到S3时,需要不到一秒的时间.

那么什么是Spark正在减慢保存过程呢？

Answer 1

我不认为写入S3需要很长时间。您正在编写的 DataFrame 很可能需要花费大量时间来计算。首先尝试将其保存到 HDFS。然后您就可以使用hadoop distcp命令将文件复制到 S3。