我有一个s3存储桶,其中存储要由我的 pyspark 代码处理的数据文件。我要访问的文件夹是:
s3a://bucket_name/data/
Run Code Online (Sandbox Code Playgroud)
此文件夹包含文件夹。我的目标是访问此目录中最后添加的文件夹的内容。由于某些原因,我不想使用 boto。有什么方法可以访问文件夹列表,以便我可以选择我想访问的文件夹。如果我指定文件夹,我可以访问文件,但我想让它动态。
我在pyspark中有一个数据框。说有一些列a,b,c ...随着列的值更改,我想将数据分组。说
A B
1 x
1 y
0 x
0 y
0 x
1 y
1 x
1 y
Run Code Online (Sandbox Code Playgroud)
将有3组作为(1x,1y),(0x,0y,0x),(1y,1x,1y)
和对应的行数据