nsc*_*060 3 amazon-s3 apache-spark pyspark aws-glue
我正在从 S3 位置读取数据集 dataset1 和 dataset2。然后,我将它们转换并写回到读取 dataset2 的同一位置。
但是,我收到以下错误消息:
An error occurred while calling o118.save. No such file or directory 's3://<myPrefix>/part-00001-a123a120-7d11-581a-b9df-bc53076d57894-c000.snappy.parquet
Run Code Online (Sandbox Code Playgroud)
如果我尝试写入新的 S3 位置,例如,s3://dataset_new_path.../代码可以正常工作。
my_df \
.write.mode('overwrite') \
.format('parquet') \
.save(s3_target_location)
Run Code Online (Sandbox Code Playgroud)
.cache()注意:我在读取数据帧后尝试使用,但仍然遇到相同的错误。
这导致问题的原因是您正在读取和写入您试图覆盖的同一路径。这是标准 Spark 问题,与 AWS Glue 无关。
Spark 在 DF 上使用惰性转换,并在调用某些操作时触发。它创建 DAG 来保存有关应应用于 DF 的所有转换的信息。
当您从同一位置读取数据并使用覆盖写入时,“使用覆盖写入”是 DF 的操作。当spark看到'write using override'时,在它的执行计划中它会添加先删除该路径,然后尝试读取已经空闲的路径;因此错误。
可能的解决方法是首先写入某个临时位置,然后将其用作源,覆盖dataset2位置
| 归档时间: |
|
| 查看次数: |
4165 次 |
| 最近记录: |