小编Sco*_*ell的帖子

将行中的每一列传递到 Spark SQL 中的哈希函数

我有一个包含N列的表,我想将它们全部连接到一个字符串列,然后对该列执行哈希。我在 Scala 中发现了类似的问题。

理想情况下,我想完全在 Spark SQL 内部完成此操作,我已经尝试过HASH(*) as myhashcolumn,但由于几列有时为空,我无法按预期完成这项工作。

如果我必须创建一个 UDF 并注册它才能实现这一点,我需要使用 Python 而不是 Scala,因为我的所有其他代码都使用 Python。

有任何想法吗?

python apache-spark apache-spark-sql pyspark

4
推荐指数
1
解决办法
6384
查看次数

标签 统计

apache-spark ×1

apache-spark-sql ×1

pyspark ×1

python ×1