use*_*555 6 apache-spark apache-spark-sql orc
我正在使用 Spark 1.6.1,我正在尝试将数据帧保存为 orc 格式。
我面临的问题是save方法非常慢,每个执行器上50M的orc文件大约需要6分钟。这就是我保存数据框的方式
dt.write.format("orc").mode("append").partitionBy("dt").save(path)
Run Code Online (Sandbox Code Playgroud)
我尝试对也使用 orc 格式的 hive 表使用 saveAsTable,这似乎快了大约 20% 到 50%,但这种方法有它自己的问题 - 似乎当任务失败时,重试总是会失败,因为文件已经存在。这就是我保存数据框的方式
dt.write.format("orc").mode("append").partitionBy("dt").saveAsTable(tableName)
Run Code Online (Sandbox Code Playgroud)
保存方法如此缓慢是否有原因?难道我做错了什么?
| 归档时间: |
|
| 查看次数: |
12859 次 |
| 最近记录: |