小编Jug*_*ngh的帖子

pyspark 列出 s3 存储桶中文件夹的子文件夹

我有一个s3存储桶,其中存储要由我的 pyspark 代码处理的数据文件。我要访问的文件夹是:

s3a://bucket_name/data/
Run Code Online (Sandbox Code Playgroud)

此文件夹包含文件夹。我的目标是访问此目录中最后添加的文件夹的内容。由于某些原因,我不想使用 boto。有什么方法可以访问文件夹列表,以便我可以选择我想访问的文件夹。如果我指定文件夹,我可以访问文件,但我想让它动态。

amazon-s3 dataframe pyspark s3-bucket

4
推荐指数
1
解决办法
4692
查看次数

根据列值的变化对pyspark数据帧进行分区

我在pyspark中有一个数据框。说有一些列a,b,c ...随着列的值更改,我想将数据分组。说

A  B
1  x
1  y
0  x
0  y
0  x
1  y
1  x
1  y
Run Code Online (Sandbox Code Playgroud)

将有3组作为(1x,1y),(0x,0y,0x),(1y,1x,1y) 和对应的行数据

python dataframe pyspark spark-dataframe

1
推荐指数
1
解决办法
700
查看次数