Pyspark将数据框保存到S3

Shr*_*ant 6 python amazon-s3 amazon-web-services pyspark

我想将数据帧保存到s3,但是当我将文件保存到s3时,它将创建带有的空文件${folder_name},我想在其中保存文件。

保存数据框的语法:-

f.write.parquet("s3n://bucket-name/shri/test")
Run Code Online (Sandbox Code Playgroud)

它将文件保存在测试文件夹中,但$test在下创建shri

有没有一种方法可以保存它而不创建该额外的文件夹?

Usm*_*har 5

我可以通过使用下面的代码来做到这一点。

df.write.parquet("s3a://bucket-name/shri/test.parquet",mode="overwrite")
Run Code Online (Sandbox Code Playgroud)

  • 在引号中给出覆盖值,即 mode='overwrite' (4认同)

Bob*_*ain 4

据我所知,无法控制实际镶木地板文件的命名。当您将数据帧写入 parquet 时,您可以指定目录名称,spark 会在该目录下创建适当的 parquet 文件。