Pyspark将数据框保存到S3

Question

我想将数据帧保存到s3，但是当我将文件保存到s3时，它将创建带有的空文件${folder_name}，我想在其中保存文件。

保存数据框的语法：-

f.write.parquet("s3n://bucket-name/shri/test")

它将文件保存在测试文件夹中，但$test在下创建shri。

有没有一种方法可以保存它而不创建该额外的文件夹？

Answer 1

我可以通过使用下面的代码来做到这一点。

df.write.parquet("s3a://bucket-name/shri/test.parquet",mode="overwrite")

Answer 2

据我所知，无法控制实际镶木地板文件的命名。当您将数据帧写入 parquet 时，您可以指定目录名称，spark 会在该目录下创建适当的 parquet 文件。