小编use*_*020的帖子

如何在火花中将rdd数据一分为二?

我在Spark RDD中有一个数据,我想将其分为两个部分,比例为0.7。例如,如果RDD如下所示:

[1,2,3,4,5,6,7,8,9,10]
Run Code Online (Sandbox Code Playgroud)

我想将其分为rdd1

 [1,2,3,4,5,6,7]
Run Code Online (Sandbox Code Playgroud)

rdd2

[8,9,10]
Run Code Online (Sandbox Code Playgroud)

比例为0.7。在rdd1rdd2应该是随机的,每次。我这样尝试:

seed = random.randint(0,10000)
rdd1 = data.sample(False,scale,seed)
rdd2 = data.subtract(rdd1)
Run Code Online (Sandbox Code Playgroud)

有时可以,但是当我的数据包含时,dict我遇到了一些问题。例如,数据如下:

[{1:2},{3:1},{5:4,2;6}]
Run Code Online (Sandbox Code Playgroud)

我懂了

TypeError:无法散列的类型:'dict'

python apache-spark rdd pyspark

5
推荐指数
1
解决办法
3491
查看次数

标签 统计

apache-spark ×1

pyspark ×1

python ×1

rdd ×1