尝试将数据集写入配置单元表中的分区时,我看到间歇性异常。
Caused by: org.apache.hadoop.fs.FileAlreadyExistsException: /user/hive/warehouse/devl_fr9.db/fr9_ftdelivery_cpy_2_4d8eebd3_9691_47ce_8acc_b2a5123dabf6/.spark-staging-d996755c-eb81-4362-a393-31e8387104f0/date_id=20180604/part-00000-d996755c-eb81-4362-a393-31e8387104f0.c000.snappy.parquet for client 10.56.219.20 already exists
如果我检查 HDFS,相关路径不存在。我只能假设这是有关临时暂存文件的一些竞争条件。我使用的是 Spark 2.3
为了确保两个数据集的共置和共分区,它们必须在同一作业中由相同的键和分区数进行分区。
如果我加入这些数据集,结果加入的数据集会保留这个分区吗?
如果我然后在同一作业中使用相同的键和分区数对第三个数据集进行分区,这是否保证与加入的数据集的共同分区/托管?