Spark:将字符串列转换为数组

Question

Spark:将字符串列转换为数组

如何将已读取的字符串转换为数组列？即从下面的模式转换

scala> test.printSchema
root
 |-- a: long (nullable = true)
 |-- b: string (nullable = true)

+---+---+
|  a|  b|
+---+---+
|  1|2,3|
+---+---+
|  2|4,5|
+---+---+

Run Code Online (Sandbox Code Playgroud)

至:

scala> test1.printSchema
root
 |-- a: long (nullable = true)
 |-- b: array (nullable = true)
 |    |-- element: long (containsNull = true)

+---+-----+
|  a|  b  |
+---+-----+
|  1|[2,3]|
+---+-----+
|  2|[4,5]|
+---+-----+

Run Code Online (Sandbox Code Playgroud)

如果可能的话,请分享scala和python实现.在相关的说明中,如何在从文件本身读取时处理它？我有大约450列的数据,其中很少我想用这种格式指定.目前我在pyspark阅读如下:

df = spark.read.format('com.databricks.spark.csv').options(
    header='true', inferschema='true', delimiter='|').load(input_file)

Run Code Online (Sandbox Code Playgroud)

谢谢.

Answer 1

Sha*_*ala 11

有各种方法,

最好的方法是使用split函数和强制转换array<long>

data.withColumn("b", split(col("b"), ",").cast("array<long>"))

Run Code Online (Sandbox Code Playgroud)

您还可以创建简单的udf来转换值

val tolong = udf((value : String) => value.split(",").map(_.toLong))

data.withColumn("newB", tolong(data("b"))).show

Run Code Online (Sandbox Code Playgroud)

希望这可以帮助!

归档时间：	8 年，4 月前
查看次数：	21033 次
最近记录：	6 年，3 月前