比较两个数组并获得 PySpark 中的差异

Question

比较两个数组并获得 PySpark 中的差异

jik*_*hue 5 python apache-spark-sql pyspark spark-dataframe apache-spark-mllib

我在一个数据框中有两个数组字段。

我需要比较这两个数组并在同一数据框中将差异作为数组（新列）获取。

预期输出为：

B 列是 A 列的子集。此外，两个数组中的单词顺序相同。

任何人都可以帮我解决这个问题吗？

Answer 1

ags*_*s29 6

您可以使用用户定义的函数。我的示例数据帧与您的略有不同，但代码应该可以正常工作：

import pandas as pd
from pyspark.sql.types import *

#example df
df=sqlContext.createDataFrame(pd.DataFrame(data=[[["hello", "world"], 
["world"]],[["sample", "overflow", "text"], ["sample", "text"]]], columns=["A", "B"]))

# define udf
differencer=udf(lambda x,y: list(set(x)-set(y)), ArrayType(StringType()))
df=df.withColumn('difference', differencer('A', 'B'))

Run Code Online (Sandbox Code Playgroud)

编辑：

如果存在重复项，这将不起作用，因为 set 仅保留唯一项。所以你可以修改udf如下：

differencer=udf(lambda x,y: [elt for elt in x if elt not in y] ), ArrayType(StringType()))

Run Code Online (Sandbox Code Playgroud)

Answer 2

小智 6

从 Spark 2.4.0 开始，这可以使用 array_except 轻松解决。举个例子

from pyspark.sql import functions as F

#example df
df=sqlContext.createDataFrame(pd.DataFrame(data=[[["hello", "world"], 
["world"]],[["sample", "overflow", "text"], ["sample", "text"]]], columns=["A", "B"]))


df=df.withColumn('difference', F.array_except('A', 'B'))

Run Code Online (Sandbox Code Playgroud)

对于数组上的更多类似操作，我建议这篇博文 https://www.waitingforcode.com/apache-spark-sql/apache-spark-2.4.0-features-array-higher-order-functions/read

归档时间：	8 年前
查看次数：	7805 次
最近记录：	6 年，4 月前