Spark 解码并解压缩 gzip 嵌入的 Base 64 字符串

ran*_*ddy 6 apache-spark apache-spark-sql pyspark

我的 Spark 程序读取一个文件,其中包含编码为 64 的 gzip 压缩字符串。我必须解码和解压缩。我使用spark unbase64来解码并生成字节数组

bytedf=df.withColumn("unbase",unbase64(col("value")) )
Run Code Online (Sandbox Code Playgroud)

Spark中有没有可用的spark方法来解压缩字节码?

Rah*_*rma 1

使用 base64 的 Spark 示例-

import base64
.
.
#decode base 64 string using map operation or you may create udf.
df.map(lambda base64string: base64.b64decode(base64string), <string encoder>)
Run Code Online (Sandbox Code Playgroud)

请阅读此处了解详细的 python 示例。