小编nei*_*usc的帖子

使用Pyspark读取S3上随机的文件样本

我在S3上有一个包含1000个文件的存储桶.每个约1GB.我想阅读这些文件的随机样本.让我们说5%的文件.我就是这样做的

fileDF = sqlContext.jsonRDD(self.sc.textFile(self.path).sample(withReplacement=False, fraction=0.05, seed=42).repartition(160))

但似乎上面的代码将读取所有文件然后采样.虽然我想采取文件样本并阅读它们.有人可以帮忙吗？

python amazon-s3 amazon-emr apache-spark pyspark

nei*_*usc

lucky-day

6
推荐指数

1
解决办法

1257
查看次数

如何在Spark数据帧中分组和聚合后过滤？

我有一个带有架构的火花数据帧df，如下所示：

[id:string, label:string, tags:string]

id | label | tag
---|-------|-----
 1 | h     | null
 1 | w     | x
 1 | v     | null
 1 | v     | x
 2 | h     | x
 3 | h     | x
 3 | w     | x
 3 | v     | null
 3 | v     | null
 4 | h     | null
 4 | w     | x
 5 | w     | x

Run Code Online (Sandbox Code Playgroud)

（h、w、v 是标签。x 可以是任何非空值）

对于每个 id，最多有一个标签“h”或“w”，但可能有多个“v”。我想选择满足以下条件的所有 id：

每个 id …

sql group-by filter apache-spark

nei*_*usc

lucky-day

5
推荐指数

1
解决办法

2万
查看次数