res*_*dem 5 parquet pyspark databricks azure-databricks
在 Azure Databricks 中,我想使用 python/pyspark 从多个笔记本同时写入同一组 parquet 文件。我对目标文件进行了分区,因此分区是不相交/独立写入的,这是根据databricks 文档支持的。
但是,我的集群日志中不断出现错误,并且并发写入操作之一失败:
Py4JJavaError: An error occurred while calling o1033.save.
: org.apache.spark.SparkException: Job aborted.
...
Caused by: org.apache.hadoop.fs.PathIOException: `<filePath>/_SUCCESS': Input/output error: Parallel access to the create path detected. Failing request to honor single writer semantics
Run Code Online (Sandbox Code Playgroud)
这是写入 parquet 文件的基本路径。
为什么会发生这种情况?_SUCCESS 文件的用途是什么?我可以通过某种方式禁用它们来避免此问题吗?
_SUCCESS是一个空文件,在过程的最后写入,以确认一切顺利。
您提供的链接仅涉及 delta,这是一种特殊格式。显然,您正在尝试编写镶木地板格式文件,而不是增量格式。这就是你们产生冲突的原因。
| 归档时间: |
|
| 查看次数: |
2421 次 |
| 最近记录: |