如何在 PySpark 中使用 .contains() 按单个或多个子字符串进行过滤？

Question

如何在 PySpark 中使用 .contains() 按单个或多个子字符串进行过滤？

use*_*ser 4 python apache-spark apache-spark-sql pyspark

这是一个简单的问题（我认为），但我不确定回答它的最佳方法。

我需要根据 Spark Dataframe 中包含字符串的列中是否存在“子字符串”进行过滤。

目前我正在执行以下操作（使用过滤.contains）：

data = [[1, "ABC"], [2, "DEF"], [3, "DEF"], [4, "JFKLMN"], [5, "JFKOPQ"], [6, "MNO"]]

df = pd.DataFrame(data, columns=["Item", "String"])
sdf = spark.createDataFrame(df)

Run Code Online (Sandbox Code Playgroud)

但我想概括这一点，以便我可以过滤到一个或多个字符串，如下所示：

filtered_sdf = sdf.filter(
    spark_fns.col("String").contains("JFK") | spark_fns.col("String").contains("ABC")
)

Run Code Online (Sandbox Code Playgroud)

或者

filtered_sdf = sdf.filter(
    spark_fns.col("String").contains("ABC")
)

Run Code Online (Sandbox Code Playgroud)

理想情况下，该.contains()部分是包含 1+ 个子字符串的预设参数。

有谁知道最好的方法是什么？或者其他方法？

我尝试过使用.isin(substring_list)，但它不起作用，因为我们正在搜索子字符串的存在。

Answer 1

小智 5

您可以创建适合所有所需模式的正则表达式模式：

list_desired_patterns = ["ABC", "JFK"]
regex_pattern = "|".join(list_desired_patterns)

Run Code Online (Sandbox Code Playgroud)

然后应用类似的 Column 方法：

filtered_sdf = sdf.filter(
    spark_fns.col("String").rlike(regex_pattern)
)

Run Code Online (Sandbox Code Playgroud)

这将过滤所需模式列表中的任何匹配项。

归档时间：	4 年，3 月前
查看次数：	11962 次
最近记录：	3 年，5 月前