我在S3上有一个包含1000个文件的存储桶.每个约1GB.我想阅读这些文件的随机样本.让我们说5%的文件.我就是这样做的
fileDF = sqlContext.jsonRDD(self.sc.textFile(self.path).sample(withReplacement=False, fraction=0.05, seed=42).repartition(160))
但似乎上面的代码将读取所有文件然后采样.虽然我想采取文件样本并阅读它们.有人可以帮忙吗?
我有一个带有架构的火花数据帧df,如下所示:
[id:string, label:string, tags:string]
id | label | tag
---|-------|-----
1 | h | null
1 | w | x
1 | v | null
1 | v | x
2 | h | x
3 | h | x
3 | w | x
3 | v | null
3 | v | null
4 | h | null
4 | w | x
5 | w | x
Run Code Online (Sandbox Code Playgroud)
(h、w、v 是标签。x 可以是任何非空值)
对于每个 id,最多有一个标签“h”或“w”,但可能有多个“v”。我想选择满足以下条件的所有 id:
每个 id …