我有:
+---+-------+-------+
| id| var1| var2|
+---+-------+-------+
| a|[1,2,3]|[1,2,3]|
| b|[2,3,4]|[2,3,4]|
+---+-------+-------+
Run Code Online (Sandbox Code Playgroud)
我想要:
+---+-------+-------+-------+-------+-------+-------+
| id|var1[0]|var1[1]|var1[2]|var2[0]|var2[1]|var2[2]|
+---+-------+-------+-------+-------+-------+-------+
| a| 1| 2| 3| 1| 2| 3|
| b| 2| 3| 4| 2| 3| 4|
+---+-------+-------+-------+-------+-------+-------+
Run Code Online (Sandbox Code Playgroud)
如何在Pyspark中将列表拆分为多个列提供的解决方案?
df1.select('id', df1.var1[0], df1.var1[1], ...).show()
Run Code Online (Sandbox Code Playgroud)
可以,但是我的一些数组很长(最大332)。
我该如何编写它以便考虑所有长度的数组?
pyspark ×1