小编san*_*jha的帖子

如何在 python 中使用模拟数据创建数据框

我有示例架构,其中包含 12 列,每列都有特定的类别。现在我需要将这些数据模拟成大约 1000 行的数据帧。我该怎么办?

我使用下面的代码为每列生成数据

      Location = ['USA','India','Prague','Berlin','Dubai','Indonesia','Vienna']
      Location = random.choice(Location)

      Age = ['Under 18','Between 18 and 64','65 and older']
      Age = random.choice(Age)

      Gender = ['Female','Male','Other']
      Gender = random.choice(Gender)
Run Code Online (Sandbox Code Playgroud)

等等

我需要如下的输出

       Location        Age          Gender
       Dubai           below 18     Female
       India           65 and older Male
Run Code Online (Sandbox Code Playgroud)

。。。。

python random dataframe python-3.x pandas

7
推荐指数
1
解决办法
3471
查看次数

如何使用 pyspark 仅检索 s3 文件夹路径中的文件名

您好,我有 aws s3 存储桶,其中定义了一些文件夹和子文件夹

我只需要检索该文件夹中的文件名。该怎么做

s3 bucket name - abc

path - s3://abc/ann/folder1/folder2/folder3/file1

path - s3://abc/ann/folder1/folder2/file2
Run Code Online (Sandbox Code Playgroud)

到目前为止尝试过的代码

   s3 = boto3.client(s3)
   lst_obj = s3.list_objects(bucket='abc',prefix='ann/')
   lst_obj["contents"]
Run Code Online (Sandbox Code Playgroud)

我正在进一步循环以获取所有内容

   for file in lst_obj["contents"]:
         do somtheing...
Run Code Online (Sandbox Code Playgroud)

这里 file["Key"] 给了我整个路径,但我只需要文件名

python amazon-s3 amazon-web-services boto3 pyspark

2
推荐指数
2
解决办法
1万
查看次数