我有一个包含N列的表,我想将它们全部连接到一个字符串列,然后对该列执行哈希。我在 Scala 中发现了类似的问题。
N
理想情况下,我想完全在 Spark SQL 内部完成此操作,我已经尝试过HASH(*) as myhashcolumn,但由于几列有时为空,我无法按预期完成这项工作。
HASH(*) as myhashcolumn
如果我必须创建一个 UDF 并注册它才能实现这一点,我需要使用 Python 而不是 Scala,因为我的所有其他代码都使用 Python。
有任何想法吗?
python apache-spark apache-spark-sql pyspark
apache-spark ×1
apache-spark-sql ×1
pyspark ×1
python ×1