Nik*_*ane 10 scala apache-spark pyspark
如何将已读取的字符串转换为数组列?即从下面的模式转换
scala> test.printSchema
root
|-- a: long (nullable = true)
|-- b: string (nullable = true)
+---+---+
| a| b|
+---+---+
| 1|2,3|
+---+---+
| 2|4,5|
+---+---+
Run Code Online (Sandbox Code Playgroud)
至:
scala> test1.printSchema
root
|-- a: long (nullable = true)
|-- b: array (nullable = true)
| |-- element: long (containsNull = true)
+---+-----+
| a| b |
+---+-----+
| 1|[2,3]|
+---+-----+
| 2|[4,5]|
+---+-----+
Run Code Online (Sandbox Code Playgroud)
如果可能的话,请分享scala和python实现.在相关的说明中,如何在从文件本身读取时处理它?我有大约450列的数据,其中很少我想用这种格式指定.目前我在pyspark阅读如下:
df = spark.read.format('com.databricks.spark.csv').options(
header='true', inferschema='true', delimiter='|').load(input_file)
Run Code Online (Sandbox Code Playgroud)
谢谢.
Sha*_*ala 11
有各种方法,
最好的方法是使用split函数和强制转换array<long>
data.withColumn("b", split(col("b"), ",").cast("array<long>"))
Run Code Online (Sandbox Code Playgroud)
您还可以创建简单的udf来转换值
val tolong = udf((value : String) => value.split(",").map(_.toLong))
data.withColumn("newB", tolong(data("b"))).show
Run Code Online (Sandbox Code Playgroud)
希望这可以帮助!
| 归档时间: |
|
| 查看次数: |
21033 次 |
| 最近记录: |