小编nei*_*usc的帖子

使用Pyspark读取S3上随机的文件样本

我在S3上有一个包含1000个文件的存储桶.每个约1GB.我想阅读这些文件的随机样本.让我们说5%的文件.我就是这样做的

fileDF = sqlContext.jsonRDD(self.sc.textFile(self.path).sample(withReplacement=False, fraction=0.05, seed=42).repartition(160))

但似乎上面的代码将读取所有文件然后采样.虽然我想采取文件样本并阅读它们.有人可以帮忙吗?

python amazon-s3 amazon-emr apache-spark pyspark

6
推荐指数
1
解决办法
1257
查看次数

如何在Spark数据帧中分组和聚合后过滤?

我有一个带有架构的火花数据帧df,如下所示:

[id:string, label:string, tags:string]

id | label | tag
---|-------|-----
 1 | h     | null
 1 | w     | x
 1 | v     | null
 1 | v     | x
 2 | h     | x
 3 | h     | x
 3 | w     | x
 3 | v     | null
 3 | v     | null
 4 | h     | null
 4 | w     | x
 5 | w     | x
Run Code Online (Sandbox Code Playgroud)

(h、w、v 是标签。x 可以是任何非空值)

对于每个 id,最多有一个标签“h”或“w”,但可能有多个“v”。我想选择满足以下条件的所有 id:

每个 id …

sql group-by filter apache-spark

5
推荐指数
1
解决办法
2万
查看次数

标签 统计

apache-spark ×2

amazon-emr ×1

amazon-s3 ×1

filter ×1

group-by ×1

pyspark ×1

python ×1

sql ×1