小编Mr *_* do的帖子

如何为每行 rdd 生成哈希?(PYSPARK)

正如问题中所指定的,我正在尝试为 RDD 的每一行生成一个哈希值。出于我的目的,我不能使用zipWithUniqueId()方法,对于 RDD 的每一行,我需要所有列的一个哈希值。

for row in DataFrame.collect():
    return hashlib.sha1(str(row))
Run Code Online (Sandbox Code Playgroud)

我知道这是最糟糕的方式,迭代到 rdd,但我是 pyspark 的初学者。然而问题是:我为每一行获得相同的哈希值。我尝试使用强抗碰撞散列函数,但它太慢了。有没有办法解决这个问题?提前致谢 :)

hash row rdd pyspark

4
推荐指数
1
解决办法
6825
查看次数

标签 统计

hash ×1

pyspark ×1

rdd ×1

row ×1