与 pyspark 同时写入 parquet 文件

Question

与 pyspark 同时写入 parquet 文件

res*_*dem 5 parquet pyspark databricks azure-databricks

在 Azure Databricks 中，我想使用 python/pyspark 从多个笔记本同时写入同一组 parquet 文件。我对目标文件进行了分区，因此分区是不相交/独立写入的，这是根据databricks 文档支持的。

但是，我的集群日志中不断出现错误，并且并发写入操作之一失败：

Py4JJavaError: An error occurred while calling o1033.save.
: org.apache.spark.SparkException: Job aborted.
...
Caused by: org.apache.hadoop.fs.PathIOException: `<filePath>/_SUCCESS': Input/output error: Parallel access to the create path detected. Failing request to honor single writer semantics

Run Code Online (Sandbox Code Playgroud)

这是写入 parquet 文件的基本路径。

为什么会发生这种情况？_SUCCESS 文件的用途是什么？我可以通过某种方式禁用它们来避免此问题吗？

Answer 1

Ste*_*ven 0

_SUCCESS是一个空文件，在过程的最后写入，以确认一切顺利。

您提供的链接仅涉及 delta，这是一种特殊格式。显然，您正在尝试编写镶木地板格式文件，而不是增量格式。这就是你们产生冲突的原因。

归档时间：	4 年，7 月前
查看次数：	2421 次
最近记录：	4 年，7 月前