小编Ter*_*tyl的帖子

写入 Hive 分区时 Spark 暂存目录竞争条件?

尝试将数据集写入配置单元表中的分区时,我看到间歇性异常。

Caused by: org.apache.hadoop.fs.FileAlreadyExistsException: /user/hive/warehouse/devl_fr9.db/fr9_ftdelivery_cpy_2_4d8eebd3_9691_47ce_8acc_b2a5123dabf6/.spark-staging-d996755c-eb81-4362-a393-31e8387104f0/date_id=20180604/part-00000-d996755c-eb81-4362-a393-31e8387104f0.c000.snappy.parquet for client 10.56.219.20 already exists

如果我检查 HDFS,相关路径不存在。我只能假设这是有关临时暂存文件的一些竞争条件。我使用的是 Spark 2.3

hive apache-spark apache-spark-sql

5
推荐指数
1
解决办法
1521
查看次数

spark sql 加入后是否保留分区?

为了确保两个数据集的共置和共分区,它们必须在同一作业中由相同的键和分区数进行分区。

如果我加入这些数据集,结果加入的数据集会保留这个分区吗?

如果我然后在同一作业中使用相同的键和分区数对第三个数据集进行分区,这是否保证与加入的数据集的共同分区/托管?

apache-spark-sql

1
推荐指数
1
解决办法
2152
查看次数

标签 统计

apache-spark-sql ×2

apache-spark ×1

hive ×1