pal*_*vik 5 scala amazon-s3 amazon-web-services apache-spark
df.write.option("header", "false").
option("quote", null).
option("delimiter", Delimiter).
csv(tempPath)
Run Code Online (Sandbox Code Playgroud)
当我保存2 KB文件时,保存到S3只需不到5秒,但是当我尝试保存大约20GB的大文件时,需要1个多小时.
有什么建议可以加快写作过程吗?
我使用"s3a //"进行保存.
更新:当我操作大小为5 KB的数据并生成20KB文件以存储到S3时,需要8秒.当我尝试操作大小为250MB的数据并生成20KB文件存储到S3时需要45分钟.我在保存前进行计数,因此在保存之前由spark评估.
当我使用"aws S3 cp"命令将相同的20KBB文件复制到S3时,需要不到一秒的时间.
那么什么是Spark正在减慢保存过程呢?
小智 -2
我不认为写入S3需要很长时间。您正在编写的 DataFrame 很可能需要花费大量时间来计算。首先尝试将其保存到 HDFS。然后您就可以使用hadoop distcp命令将文件复制到 S3。
| 归档时间: |
|
| 查看次数: |
2871 次 |
| 最近记录: |