Pyspark - 拆分一列并获取 n 个元素

Question

Pyspark - 拆分一列并获取 n 个元素

Ale*_*o A 3 apache-spark apache-spark-sql pyspark

我想取一列并使用一个字符分割一个字符串。像往常一样，我知道 split 方法会返回一个列表，但是在编码时，我发现返回的对象只有 getItem 或 getField 方法，并具有 API 中的以下描述：

@since(1.3)   
def getItem(self, key):
    """
    An expression that gets an item at position ``ordinal`` out of a list,
    or gets an item by key out of a dict.


@since(1.3)
def getField(self, name):
    """
    An expression that gets a field by name in a StructField.

Run Code Online (Sandbox Code Playgroud)

显然这不符合我的要求，例如对于“A_B_C_D”列中的文本，我想将“A_B_C_”和“D”拆分为两个不同的列。

这是我正在使用的代码

from pyspark.sql.functions import regexp_extract, col, split
df_test=spark.sql("SELECT * FROM db_test.table_test")
#Applying the transformations to the data

split_col=split(df_test['Full_text'],'_')
df_split=df_test.withColumn('Last_Item',split_col.getItem(3))

Run Code Online (Sandbox Code Playgroud)

找个例子：

from pyspark.sql import Row
from pyspark.sql.functions import regexp_extract, col, split
l = [("Item1_Item2_ItemN"),("FirstItem_SecondItem_LastItem"),("ThisShouldBeInTheFirstColumn_ThisShouldBeInTheLastColumn")]
rdd = sc.parallelize(l)
datax = rdd.map(lambda x: Row(fullString=x))
df = sqlContext.createDataFrame(datax)
split_col=split(df['fullString'],'_')
df=df.withColumn('LastItemOfSplit',split_col.getItem(2))

Run Code Online (Sandbox Code Playgroud)

结果：

fullString                                                LastItemOfSplit
Item1_Item2_ItemN                                            ItemN
FirstItem_SecondItem_LastItem                                LastItem
ThisShouldBeInTheFirstColumn_ThisShouldBeInTheLastColumn     null

Run Code Online (Sandbox Code Playgroud)

我的预期结果是始终拥有最后一项

fullString                                                LastItemOfSplit
Item1_Item2_ItemN                                            ItemN
FirstItem_SecondItem_LastItem                                LastItem
ThisShouldBeInTheFirstColumn_ThisShouldBeInTheLastColumn  ThisShouldBeInTheLastColumn

Run Code Online (Sandbox Code Playgroud)

Answer 1

Psi*_*dom 7

您可以使用getItem(size - 1)从数组中获取最后一项：

例子：

df = spark.createDataFrame([[['A', 'B', 'C', 'D']], [['E', 'F']]], ['split'])
df.show()
+------------+
|       split|
+------------+
|[A, B, C, D]|
|      [E, F]|
+------------+

import pyspark.sql.functions as F
df.withColumn('lastItem', df.split.getItem(F.size(df.split) - 1)).show()
+------------+--------+
|       split|lastItem|
+------------+--------+
|[A, B, C, D]|       D|
|      [E, F]|       F|
+------------+--------+

Run Code Online (Sandbox Code Playgroud)

对于你的情况：

from pyspark.sql.functions import regexp_extract, col, split, size
df_test=spark.sql("SELECT * FROM db_test.table_test")
#Applying the transformations to the data

split_col=split(df_test['Full_text'],'_')
df_split=df_test.withColumn('Last_Item',split_col.getItem(size(split_col) - 1))

Run Code Online (Sandbox Code Playgroud)

归档时间：	6 年，8 月前
查看次数：	15672 次
最近记录：	6 年，8 月前